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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ” 。 自 1998 EFR, RN 
就 将 工作 重点 放 在 了 遂 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson, 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. 
Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com z 
电子 邮件 : hzjsj@hzbook.com = 
联系 电话 : (010) 88379604 = 
联系 地 址 ; 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 


邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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尼采 曾经 说 过 :“ 没 有 可 怕 的 深度 ， 就 没有 美丽 的 水 面 。” 这 句 话 或 许可 以 解释 我 们 为 什 
么 要 翻译 这 本 书 。 

这 本 书 确实 是 讨论 汇编 语言 编程 的 。 在 这 样 一 个 各 种 脚本 语言 大 行 其 道 的 “速成 ”时 
代 ， 是 否 还 有 必要 学 习 汇 编 语言 呢 ” 对 于 这 个 问题 ， 简 单 回答 是 或 否 都 可 能 失 于 片面 。 

不 妨 先 讲 个 小 故事 。 我 兽 经 编写 过 一 个 C++ 程序 ， 以 多 线程 的 方式 计算 Mercator 级 
数 。 调 试 版 本 工作 正常 之 后 测试 发 布 版 本 时 发 现 了 一 个 大 问题 : 负责 具体 计算 任务 的 工作 线 
程 纷纷 完成 计算 并 退出 后 ， 负 责 汇 总 结果 的 主线 程 却 迟 迟 不 给 出 结果 ， 而 且 占 用 CPU 很 高 ， 
上 调试 器 一 看 ，CPU 在 以 下 while 语句 不 停 地 循环 。 


while (pBoss-»m dwThreadCount !- pBoss-»m dwCalcThreads) 


///Sleep(1); 
) // busy wait until all threads are done with computation of partial sums 


观察 while 语句 中 的 两 个 变量 ， 它 们 显然 已 经 相等 了 : 


+@x@48 m dwThreadCount : @xa 
+@x@4c m dwCalcThreads : @xa 


尝试 单 步 跟踪 ，CPU 始终 不 离开 这 行 语句 ， 仿 佛 被 黏 在 这 里 一 样 。 观 察 程 序 指针 对 应 
MERES, REER: 

004012f0 ebfe jmp MulThrds!CBoxBoss::MasterThreadProc«0x40 (004012f0) 
这 是 一 条 无 条 件 跳 转 语句 ， 跳 转 的 目标 地 址 居然 就 是 同一 条 指令 的 地 址 。 看 来 CPU 在 原 地 
打转 ， 根 本 没有 判断 两 个 变量 是 否 相 等 。 但 这 样 说 其 实 不 准确 ， 观 察 当 前 指令 前 面 的 指令 ， 
CPU 曾经 做 过 比较 和 判断 : 


004012e6 8b4e4c mov ecx,dword ptr [esi+4Ch] 

004012e9 8b4648 mov eax,dword ptr [esi+48h] 

004012ec 3bc1 cmp eax,ecx 

004012ee 7402 je MulThrds!CBoxBoss: :MasterThreadProc+@x42 (004012f2) 


问题 的 关键 是 while 循环 内 部 没有 改变 要 判断 的 两 个 变量 ， 而 且 定义 这 两 个 变量 时 又 忘 
WEH volatile 关键 字 来 修饰 ， 于 是 编译 器 在 编译 发 布 版 本 、 做 自动 优化 时 ， 为 了 避免 反复 
ERAF (内 存在 CPU 外 部 ， 相 对 于 读 寄存 器 来 说 访问 内 存 是 比较 大 的 开销 )， 便 只 读 取 变 
量 一 次 ， 也 只 比较 一 次 ， 之 后 便 只 做 跳 转 而 不 读 取 和 比较 了 。 增 加 volatile 关键 字 后 这 个 问 
题 就 解决 了 。 

这 个 小 故事 说 明了 两 个 道理 。 

第 一 ， 汇 编 是 CPU 的 语言 ， 学 会 汇编 可 以 为 我 们 打开 一 扇 窗 ， 透 过 这 扇 窗 我 们 可 以 穿 
越 层 层 阻隔 ， 探 视 深 选 微妙 的 底层 世界 ， 理 解 CPU 的 行为 ， 看 它 是 在 那个 世界 里 欢快 地 奔 
跑 还 是 遭遇 陷阱 停滞 不 前 。 

第 二 ， 编 译 器 所 做 的 自动 优化 有 时 是 出 乎 我 们 预料 的 ， 可 能 让 我 们 惊喜 ， 也 可 能 让 我 们 
诅 丧 。 要 理解 编译 器 的 优化 行为 ， 懂 得 汇编 语言 常常 是 必需 的 。 


学 会 汇编 语言 的 另 一 个 好 处 是 当 我 们 对 编译 器 自动 优化 所 达到 的 效果 不 满意 时 ， 可 以 直 
接 使 用 汇编 语言 编写 代码 ， 把 性 能 提高 到 极致 。 一 个 典型 的 例子 就 是 使 用 强大 的 SIMD 指令 
(SSE 和 AVX) 来 优化 各 种 图 形 图 像 应 用 的 性 能 ， 比 如 视频 编 解 码 和 各 种 机 器 学 习 算法 。 这 
本 书 很 全 面 地 介绍 了 x86 CPU 的 各 种 浮 点 计算 技术 ， 包 括 经 典 的 x87 指令 ， 以 及 最 近 一 些 
年 流行 的 SSE 指令 和 AVX 指令 。 单 任 这 些 内 容 ， 这 本 书 便 不 愧 “摩登 (Modern) 之 名 。 

尼采 还 说 过 一 句 我 不 愿意 接受 的 话 :“ 书 的 时 代 结 束 了 ， 演 员 的 时 代 开 启 了。” 在 眼下 这 
样 一 个 不 是 书 的 时 代 里 ， 无 论 是 写 一 本 书 还 是 翻译 一 本 书 都 很 艰难 。 太 多 干扰 让 我 们 无 法 安 
静 地 思考 和 遗 词 造句 。 我 的 多 位 格 友 (格物 之 友 ， 搜索 “ 格 友 ”公众 号 可 以 了 解 更 多 ) 与 我 
一 起 翻译 了 这 本 书 ， 为 了 能 有 大 块 的 时 间 专 注 于 翻译 并 相互 切磋 ， 我 们 曾 两 度 集结 到 苏州 。 
第 一 次 住 在 灵 岩 山下 的 木 污 古镇 。 白 天 在 灵 岩 山下 的 一 个 茶馆 里 挥汗如雨 ， 晚 上 继续 在 宾馆 
里 挑灯 夜战 。 中 午 登 上 灵 涯 山 ， 到 灵 崖 寺 里 吃素 面 。 虽然 辛苦 ,但 很 充实 和 快乐 。“ 无 图 无 
真相 ”， 贴 一 张 当时 的 照片 吧 1 








FRR PMA BARRA: Bok, ARH, AE. IERE, HERR, EEN, ERF, Gk 
假 。 以 上 格 友 承 担 了 本 书 的 主要 翻译 任务 ， 此 外 ， 何 县 、 黎 水 芬 和 王建 荣 也 参与 了 本 书 的 少 
量 翻译 和 校对 工作 ， 在 此 表示 感谢 。 由 于 我 们 的 水 平 有 限 ， 难 免 有 翻译 不 当 之 处 ,希望 各 位 
读者 批评 指正 。 

x86 架构 的 第 一 代 产品 8086 是 从 1976 年 开始 研发 的 ， 距 今 已 有 40 个 年 头 。 这 40 年 
中 ， 基 于 x86 CPU 开发 的 各 种 产品 难以 计数 ， 这 些 产品 让 这 个 经 典 架构 传 遍 了 整个 世界 。 
学 习 x86 汇 编 语 言 是 了 解 这 一 经 典 架 构 的 最 好 方式 ， 当 我 们 把 一 条 条 指令 交 给 x86 CPU fA 
行 时 ， 其 实 就 是 在 和 这 个 经 典 架 构 直 接 “ 交 谈 ”。 在 这 个 交谈 过 程 中 ， 我 们 可 以 体会 到 其 中 
所 蕴藏 着 的 智慧 ， 感 受到 “软件 的 大 美 ”! 


张 银 奎 
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从 个 人 电脑 发 明 那 一 天 起 ， 很 多 软件 开发 者 就 使 用 汇编 语言 编程 ， 以 解决 各 种 各 样 的 难 
题 。 在 PC 时 代 的 早期 , 用 x86 汇编 语言 编写 大 段 的 程序 或 整个 应 用 是 很 普遍 的 。 即 便 是 在 
C, CH 和 C# 等 高 级 语言 越 来 越 流行 的 今天 ， 许 多 软件 开发 者 也 仍然 使 用 汇编 语言 来 编写 
性 能 依 关 的 代码 。 虽 然 近 些 年 编译 器 进步 很 快 ， 编 译 出 来 的 机 器 码 变 得 更 短 、 更 快 ， 但 在 某 
些 情 况 下 ， 软 件 开 发 者 还 是 需要 努力 发 挥 汇编 语言 编程 的 优势 。 

现代 x86 处 理 器 包含 单 指令 多 数据 (SIMD) 架构 ， 这 给 我 们 提供 了 男 一 个 持续 关注 汇 
编 语言 编程 的 原因 。SIMD 架构 的 处 理 器 可 以 同时 计算 多 个 数据 ， 这 可 以 显著 提高 那些 需要 
实时 响应 的 应 用 软件 的 性 能 。SIMD 架构 也 非常 适合 那些 计算 密集 型 的 领域 ， 比 如 图 像 处 理 、 
音 视频 编码 、 计 算 机 辅助 设计 、 计 算 机 图 形 学 和 数据 挖掘 等 。 和 遗憾 的 是 许多 高 级 语言 和 开发 
工具 不 能 完全 发 挥 现代 x86 处 理 器 的 SIMD 能 力 。 而 汇编 语言 恰恰 可 以 让 软件 开发 者 充分 利 
用 处 理 器 的 全 部 计算 资源 。 


现代 x86 汇编 语言 编程 

本 书 是 专门 针对 x86 汇编 语言 编程 的 一 本 启发 性 教材 ， 其 主要 目的 是 教 你 如 何 用 x86 汇 
编 语言 编写 可 被 高 级 语言 调用 的 函数 。 本 书 从 应 用 程序 编程 的 角度 来 解释 x86 处 理 器 的 内 部 
架构 。 书 中 包含 了 非常 多 的 示例 代码 ， 帮 助 你 快速 理解 x86 汇编 语言 编程 和 x86 平台 的 计算 
资源 。 这 本 书 的 主要 议题 包括 : 
x86-32 核心 架构 、 数 据 类 型 、 内 部 寄存 器 、 内 存 寻 址 模式 和 基本 指令 集 。 
x87 核心 架构 、 寄 存 器 栈 、 特 殊 寄存 器 、 浮 点 编码 和 指令 集 。 
MMX 技术 和 对 组 合 整 数 进行 计算 。 
流 式 SIMD 扩展 (SSE) 和 高 级 向 量 扩展 (AVX), 包括 内 部 寄存 器 、 组 合 整 型 和 浮 点 
运算 以 及 相关 指令 集 。 
x86-64 核心 架构 、 数 据 类 型 、 内 部 寄存 器 、 内 存 寻 址 模式 和 基本 指令 集 。 
SSE 和 AVX 技术 的 64 位 扩展 。 
x86 微 架 构 和 汇编 语言 优化 技术 。 

在 讨论 其 他 内 容 之 前 ,我 想 特别 声明 一 下 本 书 没有 覆盖 到 的 内 容 。 本 书 没有 介绍 x86 汇 
编 语言 的 传统 内 容 ， 比 如 16 位 实 模式 应 用 和 分 段 内 存 模型 。 除 了 几 处 历史 性 的 回顾 和 比较 
外 ， 所 有 其 他 讨论 和 示例 代码 都 是 假定 处 于 x86 保护 模式 和 平坦 线性 内 存 模型 下 。 本 书 没有 
讨论 x86 的 特权 指令 和 用 以 支持 开发 操作 系统 内 核 的 CPU 功能 ， 也 没有 介绍 如 何 用 x86 汇 
编 语 言 去 开发 操作 系统 或 者 设备 驱动 程序 。 不 过 ， 如 果 你 真 的 想 用 x86 汇编 语言 去 开发 那些 
系统 软件 ， 那 么 需要 先 充分 理解 这 本 书 的 内 容 。 

虽然 理论 上 仍然 可 以 完全 用 汇编 语言 开发 一 个 应 用 程序 ， 但 是 现实 中 的 各 种 需求 使 得 
这 种 方法 很 难 实行 。 所 以 本 书 重点 关注 如 何 创建 可 被 C++ 调用 的 x86 汇编 语言 模块 和 函数 。 
本 书 中 的 所 有 示例 代码 和 示例 程序 都 是 用 微软 的 Visual C++ 工具 编写 并 使 用 微软 的 宏 汇 编 
器 编译 的 。 这 两 个 工具 都 包含 在 微软 的 Visual Studio 开发 工具 集 里 面 。 


VII 


目标 读者 

本 书 是 针对 下 面 几 类 软件 开发 者 而 编写 的 : 

e 在 Windows 平 台 下 开发 应 用 程序 并 想 用 x86 汇编 语言 提高 程序 性 能 的 软件 开发 者 。 

e 在 非 Windows 环境 下 开发 应 用 程序 并 想 要 学 习 x86 汇编 语言 编程 的 软件 开发 者 。 

e 对 x86 汇编 语言 编程 有 基本 了 解 ， 想 要 学 习 x86 的 SSE M AVX 指令 集 的 软件 开发 者 。 

e 想 要 或 需要 更 好 理解 x86 平台 (包括 其 内 部 架构 和 指令 集 ) 的 软件 开发 者 和 计算 机 学 

院 的 学 生 。 

本 书 主要 是 针对 Windows 平台 上 的 软件 开发 者 编写 的 ， 因 为 示例 代码 采用 了 Visual 
C++ 和 微软 宏 汇 编 编译 器 。 但 是 ， 本 书 并 不 是 一 本 介绍 如 何 使 用 微软 开发 工具 的 书 ， 非 
Windows 平台 开发 者 也 可 以 从 本 书 获 益 ， 因 为 大 多 数 内 容 的 编写 和 介绍 并 不 依赖 任何 特别 的 
操作 系统 。 具 有 C 和 C++ 编程 经 验 有 助 于 读 懂 本 书 的 内 容 和 示例 代码 ， 但 是 并 不 需要 读者 
事先 具有 Visual Studio 使 用 经 验 ， 也 不 需要 先 学 习 Windows API. 


内 容 概要 

本 书 的 主要 目的 是 帮助 你 学 习 x86 汇编 语言 编程 。 为 了 达到 这 个 目的 ， 你 需要 全 面 理解 
x86 处 理 器 的 内 部 架构 和 执行 环境 。 本 书 的 章节 和 内 容 是 按照 这 样 的 思路 规划 的 。 下 面 简 要 
介绍 一 下 本 书 的 主要 议题 和 各 章节 的 内 容 。 

x86-32 核心 架构 一 一 第 1 章 涵盖 了 x86-32 平台 的 核心 架构 ， 讨 论 了 这 个 平台 的 基本 数 
据 类 型 、 内 部 架构 、 指 令 操作 数 和 内 存 寻 址 模式 。 这 一 章 也 简要 介绍 了 x86-32 的 核心 指令 
集 。 第 2 章 讲解 了 利用 x86-32 核心 指令 集 和 常用 编程 结构 编写 x86-32 汇编 语言 程序 的 基础 
知识 。 第 2 章 及 其 后 章节 讨论 的 示例 代码 都 是 可 以 独立 运行 的 程序 ， 这 意味 着 你 可 以 运行 、 
修改 或 者 用 这 些 代码 做 一 些 实验 来 提高 学 习 效 果 。 

x87 浮 点 单元 一 一 第 3 章 探讨 x87 浮 点 单元 (FPU) 的 架构 ， 描 述 了 x87 FPU 的 寄存 器 
栈 、 控 制 字 寄 存 器 、 状 态 字 寄存 器 和 指令 集 。 这 一 章 还 深入 探讨 了 用 于 表达 浮 点 数 和 某 些 特 
殊 值 的 二 进 制 编码 方案 。 第 4 章 包 含 了 一 些 示 例 ， 用 以 演示 如 何 用 x87 FPU 指令 集 进行 浮 点 
运算 。 对 于 那些 需要 维护 x87 FPU 代码 或 者 要 在 不 具有 x86-SSE 和 x86-AVX 的 处 理 器 (HE 
如 Intel 的 Quark) 上 工作 的 读者 来 说 ， 本 章 的 内 容 是 最 适用 的 。 

MMX 技术 一 一 第 5 章 描述 了 x86 的 第 一 个 SIMD 扩展 ， 即 MMX 技术 。 它 分 析 了 
MMX 技术 的 架构 ， 包 括 它 的 寄存 器 组 、 操 作 数 类 型 和 指令 集 。 这 一 章 也 讨论 了 一 些 相关 课 
题 ， 包 括 SIMD 处 理 概念 和 组 合 整 型 运算 。 第 6 章 包 含 了 用 以 演示 基本 MMX 运算 的 示例 代 
码 ， 包 括 组 合 整 型 运算 ( 回 绕 方式 和 饱和 方式 )、 整 数 矩 阵 处 理 和 如 何 正确 地 在 MMX 和 x87 
FPU 代码 之 间 切 换 。 

流 式 SIMD 扩展 一 一 第 7 章 的 焦点 是 流 式 SIMD 扩展 (SSE)。x86-SSE 为 x86 平台 新 增 
了 一 组 128 位 的 寄存 器 ， 并 增加 了 一 系列 指令 ， 用 以 支持 不 同 的 数据 类 型 ， 包 括 组 合 整 型 、 
组 合 浮 点 数 ( 单 双 精度 ) 和 字符 串 类 型 的 数据 。 第 7 章 还 讨论 了 x86-SSE 的 标量 浮 点 运算 功 
能 ， 对 于 那些 需要 进行 标量 浮 点 计算 的 应 用 程序 来 说 ， 这 个 功能 可 以 大 大 简化 算法 并 提高 性 
能 。 第 8 章 到 第 11 章 包 含 了 一 系列 使 用 x86-SSE 指令 集 的 示例 代码 。 比 如 用 x86-SSE 的 组 
合 整 型 去 进行 图 像 处 理 ， 例 如 直方 图 构建 和 像素 阔 值 化 。 这 些 章节 也 包含 了 示例 代码 来 演示 
如 何 用 x86-SSE 对 组 合 浮 点 数 、 标 量 浮 点 数 和 字符 串 进行 计算 和 处 理 。 
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高 级 向 量 扩展 一 一 第 12 章 探讨 x86 最 新 的 SIMD 扩展 高 级 向 量 扩展 (AVX)。 该 章 
解释 了 x86-AVX 执行 环境 、 数 据 类 型 和 寄存 器 组 以 及 最 新 的 三 目 指令 格式 。 同 时 也 讨论 了 
x86-AVX 的 数据 广播 、 收 集 、 排 列 (permute) 功能 以 及 与 x86-AVX 一 起 引入 的 扩展 ， 包 括 
融合 乘 加 (fused-multiply-add，FMA)、 半 精度 浮 点 和 新 的 通用 寄存 器 指令 。 第 13 章 到 第 16 
章 包 含 了 一 系列 示例 代码 来 演示 如 何 使 用 x86-AVX 的 各 种 计算 资源 ， 包 括 对 组 合 整 型 、 组 
合 浮 点 和 标量 浮 点 操作 数 进行 计算 的 x86-AVX 指令 。 这 些 章节 还 包含 了 例子 来 演示 数据 广 
播 、 收 集 、 排 列 和 FMA 指令 的 用 法 。 

x86-64 核心 架构 一 一 第 17 章 探讨 的 是 x86-64 平台， 包括 这 个 平台 的 核心 架构 、 所 支 
持 的 数据 类 型 、 通 用 寄存 器 和 状态 标志 ， 也 解释 了 为 支持 64 位 操作 数 和 内 存 寻 址 而 对 x86- 
32 平 台所 做 的 扩展 。 这 一 章 最 后 讨论 了 x86-64 指令 集 ， 包 括 那些 不 再 支持 的 指令 。 第 18 
章 用 很 多 示例 代码 演示 了 x86-64 汇编 语言 编程 的 基本 知识 。 示 例 代 码 包括 如 何 用 不 同 大 小 
的 操作 数 进行 整 型 运算 、 内 存 寻 址 模式 、 标 量 浮 点 运算 以 及 常用 的 编程 结构 。 第 18 章 还 介 
绍 了 C++ 调用 x86-64 汇编 语言 函数 的 调用 约定 。 

x86-64 SSE 和 AVX 一 一 第 19 章 描 述 了 如 何在 x86-64 平 台 上 使 用 增强 的 x86-SSE 和 
x86-AVX， 讨 论 了 各 自 的 执行 环境 和 扩展 的 数据 寄存 器 组 。 第 20 章 包含 了 在 x86-64 核心 架 
构 中 使 用 x86-SSE 和 x86-AVX 指令 集 的 示例 代码 。 

高 级 主题 一 一 本 书 最 后 两 章 讨 论 的 是 与 x86 汇编 语言 编程 相关 的 高 级 内 容 和 优化 技术 。 
第 21 章 讨论 了 x86 处 理 器 微 架构 的 关键 点 ， 包 括 它 的 前 端 流 水 线 、 乱 序 执行 模型 和 内 部 执 
行 单元 。 这 一 章 还 讨论 了 一 些 编程 技术 ， 让 你 的 x86 汇编 语言 程序 在 时 间 和 空间 上 都 很 高 
效 。 第 22 章 包含 了 几 个 展现 高 级 汇编 语言 技术 的 示例 代码 。 

附录 一 一 本 书包 括 三 个 附录 (可 从 下 面 的 Apress 网 站 或 华章 网 站 www.hzbook.com 下 
载 )。 附 录 A 介绍 了 使 用 微软 的 Visual C++ 和 宏 汇 编 器 的 简要 教程 。 附 录 B 总 结 了 x86-32 
和 x86-64 的 调用 约定 ， 使 用 汇编 语言 编写 的 函数 必须 遵守 这 些 约定 才 可 以 被 Visual C++ PR 
数 所 调用 。 附 录 C 列 出 了 关于 x86 汇编 语言 编程 的 参考 文献 和 更 多 资源 。 


示例 代码 要 求 


可 以 从 Apress 网 站 http://www.apress.com/9781484200650 下 载 本 书 的 示例 代码 。 编 译 
和 运行 示例 代码 的 软 硬 件 要 求 如 下 : 

e 一 台 包 含 新 近 微 架构 x86 处 理 器 的 个 人 电脑 。 所 有 x86-32、x87 FPU, MMX 和 x86- 
SSE 示例 代码 都 可 以 运行 在 Nehalem 或 其 以 后 的 微 架 构 处 理 器 上 。 很 多 示例 程序 也 
可 以 在 更 老 的 微 架 构 处 理 器 上 执行 。AVX 和 AXV2 示例 代码 分 别 要 求 Sandy Bridge 
和 Haswell 微 架 构 处 理 器 。 

e 微软 Windows 8.x 或 者 Windows 7 (Service Pack 1 ). x86-64 示例 代码 需要 运行 在 64 
位 Windows 操作 系统 上 。 

e Visual Studio Professional 2013 或 者 Visual Studio Express 2013 for Windows Desktop. 
Express 版 本 可 以 从 微软 的 网 站 http://msdn.microsoft.com/en-us/vstudio 上 免费 下 载 。 
推荐 使 用 Update 3 版 本 。 

BA 本 书 所 有 示例 代码 的 主要 目的 是 解释 这 本 书 中 的 议题 和 技术 ,很 少 考虑 软件 工程 

中 的 一 些 重 要 问题 ， 比 如 鲁 棒 的 错误 处 理 、 安 全 性 、 稳 定性 、 合 入 误差 等 。 若 你 决定 把 这 些 
示例 代码 用 在 自己 的 程序 里 ， 则 应 该 考虑 上 述 问题 。 

















术语 和 惯例 

这 里 给 本 书 中 使 用 的 术语 下 个 定义 。 函 数 、 子 程序 或 者 过 程 是 一 段 独 立 的 可 执行 代码 ， 
接受 0 个 或 更 多 参数 ， 完 成 一 个 操作 ， 并 且 可 以 选择 性 地 返回 一 个 值 。 通 常 函 数 被 处 理 器 的 
调用 指令 所 调用 。 线 程 是 可 以 被 操作 系统 管理 和 调度 的 最 小 执行 单元 。 任 务 或 者 进程 包含 一 
个 或 多 个 共享 同一 逻辑 内 存 空间 的 线程 。 应 用 或 程序 是 包含 至 少 一 个 任务 的 一 个 完整 软件 包 。 

术语 x86-32 和 x86-64 分 别 用 来 描述 x86 处 理 器 的 32 位 和 64 位 特征 、 资 源 以 及 处 理 能 
力 。x86 用 以 代表 32 位 和 64 位 架构 的 共有 特征 。x86-32 模式 和 x86-64 模式 表示 处 理 器 的 
特定 执行 环境 ， 它 们 之 间 的 主要 不 同 是 ，x86-64 模式 支持 64 位 寄存 器 、 操 作 数 和 内 存 寻 址 。 
x86-SSE 表示 流 式 SIMD 扩展 ，x86-AVX 表示 高 级 向 量 扩展 。 当 讨论 特定 SIMD 增强 指令 
时 ,会 使 用 SSE、SSE2、SSE3、SSSE3、SSE4、AVX 和 AVX2 这 样 的 英文 简称 。 


其 他 资源 

Intel 和 AMD 提供 了 大 量 与 x86 有 关 的 文档 。 附 录 C 列 出 了 许多 对 初学 者 和 有 经 验 的 
x86 汇 编 语 言 程 序 员 有 用 的 资源 。 其 中 《Intel 64 and IA-32 Architectures Software Developer's 
Manual-Combined Volumes: 1, 2A, 2B 2C, 3A, 3B and 3C (Order Number: 325462) 》 的 第 二 卷 
最 为 重要 。 这 一 卷 中 对 每 一 条 处 理 器 指令 都 给 出 了 非常 全 面 的 信息 ， 包 括 详 细 的 操作 过 程 、 
使 用 的 所 有 操作 数 、 会 影响 到 的 状态 标志 和 可 能 导致 的 异常 。 当 你 开发 自己 的 x86 汇编 语言 
函数 的 时 候 ， 强 烈 建议 你 查阅 这 个 文档 来 核对 指令 的 用 法 。 


致谢 

出 版 一 本 书 和 拍 一 部 电影 有 很 多 相似 之 处 。 电 影 的 预告 片 赞 美 主角 的 出 色 表 演 ， 书 的 封 
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x86-32 核心 架构 





本 章 将 从 应 用 程序 的 角度 解析 x86-32 核心 架构 。 我 们 会 从 x86 平 台 的 简要 历史 开始 介 
绍 ， 以 便 为 后 续 的 讨论 提供 一 个 参考 框架 。 接 下 来 会 回顾 x86 的 数据 类 型 ， 包 括 基本 类 型 、 
数字 类 型 和 组 合 类 型 。 而 后 ,我 们 将 深入 挖掘 x86-32 的 内 部 架构 细节 ， 包 括 执行 单元 、 通 
用 寄存 器 、 状 态 标 志 、 指 令 操作 数 和 内 存 寻 址 模式 。 本 章 的 最 后 一 部 分 是 对 x86-32 指令 集 
的 概览 。 

与 C 和 C++ 这 样 的 高 级 语言 不 同 ， 汇编 语言 编程 需要 软件 开发 者 在 写 代 码 之 前 比较 
全 面 地 理解 目标 处 理 器 的 架构 特征 。 这 一 章 的 内 容 将 满足 大 家 的 这 一 需要 ， 并 为 理解 第 
2 章 中 的 示例 代码 奠定 基础 。 本 章 也 为 理解 第 17 章 将 讨论 的 x86-64 核心 架构 准备 了 一 些 
基础 。 


1.1 HE 


在 深入 解析 x86-32 平台 的 技术 细节 之 前 ， 让 我 们 先 来 看 一 下 它 的 简要 历史 ， 这 将 有 助 
于 理解 这 个 架构 是 如 何 随 着 时 间 而 演变 的 。 在 下 面 将 要 介绍 的 回顾 内 容 中 ， 我 们 将 把 主要 精 
力 放 在 那些 对 使 用 x86 汇编 语言 的 软件 开发 者 产生 重大 影响 的 处 理 器 产品 和 架构 变化 上 。 需 
要 对 x86 产品 线 有 更 全 面 理解 的 读者 请 参考 附录 C 所 列 出 的 资源 。 

x86-32 平台 的 第 一 个 版 本 是 1985 年 问世 的 英特尔 80386 微 处 理 器 。80386 扩展 了 其 16 
位 前 身 的 架构 ， 新 增 的 特性 包括 32 位 宽 的 寄存 器 和 数据 类 型 、 平 坦 地 址 模型 、4GB 的 逻辑 
地 址 空间 以 及 分 页 虚拟 内 存 。80486 处 理 器 通过 增加 芯片 上 高 速 缓存 ( cache) 和 指令 优化 
提高 了 性 能 。 另 外 ,大 多 数 版 本 的 80486 CPU 都 包含 集成 的 x87 浮 点 单元 (FPU)， 不 再 像 
80386 那样 需要 和 分 离 的 80387 浮 点 单元 协同 工作 。 

1993 年 推出 的 奔腾 处 理 器 进一步 扩展 了 x86-32 架构 ， 开 创 了 被 称 为 P5 的 微 架 构 。 微 
架构 定义 了 处 理 器 内 部 单元 的 组 织 结 构 ， 包 括 寄存 器 文件 、 执 行 单元 、 指 令 流水 线 、 数 据 总 
线 和 高 速 缓存 。 一 种 微 架 构 常 常 被 多 个 产品 线 的 处 理 器 所 使 用 。P5 微 架构 在 性 能 方面 的 增 
强 包 括 并 行 的 (两 条 ) 指令 执行 流水 线 、64 位 外 部 数据 总 线 ， 并 把 芯片 上 高 速 缓存 分 成 指令 
缓存 和 数据 缓存 两 种 。P5 微 架 构 的 后 续 版 本 包含 了 一 种 新 的 计算 资源 ， 称 为 MMX (1997 
年 )。MMX 技术 支持 使 用 64 位 宽 的 寄存 器 对 组 合 整 型 做 单 指令 多 数据 (SIMD ) 运算 。 

1995 年 推出 的 奔腾 Pro 处 理 器 和 1997 年 推出 的 奔腾 I 处 理 器 都 使 用 了 P6 微 结 构 ， 它 
所 采用 的 三 路 超标 量 设计 进一步 扩展 了 x86-32 平台。 这 种 设计 意味 着 可 以 在 一 个 时 钟 周 
期 内 解码 、 分 发 和 执行 三 条 不 同 的 指令 (平均 )。P6 微 架 构 的 其 他 改变 包括 支持 指令 的 乱 
序 执行 、 改 进 的 分 支 预测 算法 以 及 投机 执行 。 也 是 基于 P6 微 架 构 的 奔腾 II 处 理 器 是 在 
1999 年 发 布 的 。 它 包含 了 一 种 新 的 SIMD 技术 ， 被 称 为 流 式 SIMD 扩展 (streaming SIMD 
extension,SSE)。SSE 为 x86-32 平台 增加 了 8 个 128 位 宽 的 寄存 器 以 及 支持 组 合 单 精 度 (32 
位 ) 浮 点 运算 的 指令 。 

2000 年 ， 英 特 尔 推出 了 一 种 名 为 Netburst 的 新 型 微 架构 ， 它 包含 了 扩展 SSE 浮 点 能 
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力 的 SSE2 技术 。SSE2 支持 组 合 双 精 度数 据 ， 还 引入 了 新 的 指令 让 编程 者 可 以 使 用 128 位 
的 SSE 寄存 器 来 做 组 合 整 型 运算 和 标量 浮 点 运算 。 奔 腾 4 处 理 器 和 它 的 几 个 变种 都 是 基于 
Netburst 微 架 构 的 。2004 年 的 升级 版 本 Netburst 微 架 构 包 含 了 SSE3 和 超 线程 技术 。SSE3 
增加 了 组 合 整数 指令 和 组 合 浮 点 指令 。 超 线程 技术 把 处 理 器 的 前 端 指令 流水 线 并 行 化 以 提高 
性 能 。 支 持 SSE3 的 处 理 器 包括 90nm (或 者 更 小 ) 版 本 的 奔腾 4 处 理 器 以 及 面向 服务 器 的 至 
强 (Xeon) 产品 线 。 

2006 4F, Se REAR HEM TK ARES (Core) MRAM. AMEN T Bw 
Netburst 前 端 流水 线 和 执行 单元 ， 以 便 提 高 性 能 和 降低 功 耗 。 它 还 引入 了 很 多 x86-SSE 增 
IR, 包括 SSSE3 和 SSE4.1。 这 些 扩 展 增加 了 新 的 组 合 整数 指令 和 组 合 浮 点 指令 ， 但 没有 增 
加 新 的 寄存 器 和 数据 类 型 。 基 于 酷 害 微 架构 的 处 理 器 包括 从 酷 害 2 双核 到 酷睿 2 四 核 各 个 系 
列 的 CPU 以 及 至 强 3000/5000 系列 。 

在 2008 FER, 一 种 称 为 Nehalem AY (AEE T REA ARH. Nehalem 微 架 构 把 酷 
窒 微 架构 去 掉 的 超 线程 技术 重新 加 入 到 x86 平台 。 它 还 包含 了 SSE4.2。 这 次 对 x86-SSE 的 
最 后 一 次 增强 加 入 了 几 条 应 用 相关 的 加 速 指 令 。SSE4.2 还 包含 四 条 新 的 指令 ， 可 以 使 用 128 
位 宽 的 x86-SSE 寄存 器 来 辅助 字符 串 处 理 。 基 于 Nehalem 微 架 构 的 处 理 器 包括 第 一 代 的 栈 
Æ i3. i5 和 i7 CPU 以 及 至 强 3000, 5000 和 7000 系列 的 CPU. 

在 2011 年 ， 英特尔 发 布 『 Sandy Bridge 微 架 构 。Sandy Bridge 微 架构 引入 了 一 种 新 的 
x86 SIMD 技术 ， 被 称 为 高 级 向 量 扩 展 (Advanced Vector Extension)， 简 称 AVX. AVX 增 
加 了 使 用 256 位 宽 的 寄存 器 的 组 合 浮 点 运算 ( 单 精度 双 精 度 都 支持 )。AVX 还 支持 一 种 新 的 
指令 格式 ， 可 以 有 三 个 操作 符 ， 这 有 助 于 减少 在 寄存 器 之 间 传 递 数据 的 次 数 。 基 于 Sandy 
Bridge 微 架 构 的 处 理 器 包括 第 二 代 和 第 三 代 的 酷 害 i3、i5 和 i7 CPU 以 及 至 强 的 E3、E5 和 
E7 系列 的 CPU。 

在 2013 年 ， 英特尔 公布 了 Haswell 微 架 构 。Haswell 包含 了 AVX2， 对 AVX 技术 做 了 
扩展 ， 可 以 使 用 256 位 宽 的 寄存 器 做 组 合 整数 运算 。AVX2 还 引入 了 一 系列 广播 、 收 集 和 排 
列 数据 的 指令 集 ， 用 于 完成 高 级 的 数据 传输 功能 。Haswell 微 架 构 的 另 一 大 特征 是 包含 了 对 
FMA 运算 〈fused-multiply-add， 融 合 乘 加 ) 的 支持 。 使 用 FMA， 编程 者 只 要 用 一 条 浮 点 指 
令 就 可 以 完成 连续 的 求 和 运算 和 求 积 运算 。Haswell 微 架 构 还 包含 了 几 条 新 的 通用 寄存 器 指 
令 。 基 于 Haswell 微 架 构 的 处 理 器 包括 第 四 代 的 酷 厦 i3、i5 和 i7 CPU 以 及 至 强 E3 (v3) 系 
列 CPU. 

过 去 这 些 年 x86 平 台 的 发 展 并 不 限于 SIMD 增强 。2003 4E, AMD 引入 了 Opteron 处 
理 器 ， 它 把 x86 的 核心 架构 从 32 位 扩展 到 了 64 位 。2004 年 英特尔 如 法 炮制 ， 从 奔腾 4 的 
某 些 版 本 开始 加 入 了 本 质 上 相同 的 64 i. Hr 3E T RA. Nehalem, Sandy Bridge 和 
Haswell 微 架 构 的 处 理 器 都 支持 x86-64 执行 环境 。 

过 去 这 些 年 中 ， 英 特 尔 还 引入 了 几 种 针对 特定 应 用 优化 的 专用 微 架 构 。Bonnell (2814 
是 其 中 的 第 一 个 ,2008 年 发 布 的 最 初版 本 阿 童 木 (Atom) 处 理 器 就 是 基于 Bonnell 微 架 构 的 。 
基于 这 种 微 架 构 的 阿 童 木 处 理 器 支持 SSSE3。 在 2013 年 ， 英 特 尔 推出 了 名 为 Silvermont 的 
片上 系统 (System on a Chip, SoC) 微 架 构 ， 这 一 微 架构 专门 针对 智能 手机 和 平板 PC 这 样 
的 移动 设备 做 了 优化 。Silvermont 微 哥 构 也 被 应 用 到 针对 特定 应 用 裁剪 的 处 理 器 中 ， 包 括 小 
型 服务 器 、 存 储 设 备 、 网 络 通信 设备 以 及 嵌入 式 系统 。 基 于 Silvermont 微 架 构 的 处 理 器 包 
A T SSE4.2， 但 缺少 x86-AVX。2013 年 ， 英 特 尔 还 公布 了 一 种 超 低 功 耗 的 SoC 微 架 构 ， 称 
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为 夸克 (Quark)， 专 门 为 物 联 网 (Internet-of-Things, IoT) 和 可 穿戴 设备 而 设计 。 基 于 夸克 
微 架 构 的 处 理 器 只 支持 核心 的 x86-32 和 x87 浮 点 指令 集 ， 不 具有 x86-64 处 理 功 能 ， 也 没有 
MMX x86-SSE 和 x86-AVX 技术 所 提供 的 任何 SIMD 功能 。 

最 近 一 些 年 里 ，AMD 的 处 理 器 也 在 发 展 。 在 2003 年 ，AMD 推出 了 一 系列 基于 K8 M 
架构 的 处 理 器 。 最 初版 本 的 K8 包 含 了 对 MMX、SSE 和 SSE2 的 支持 ， 后 续 版 本 加 入 了 
SSE3。2007 年 发 布 的 K10 微 架 构 包 含 了 被 称 为 SSE4a 的 SIMD 增强 。SSE4a 包含 了 几 条 
英特尔 处 理 器 不 支持 的 屏蔽 移 位 和 流 式 存储 指令 。K10 之 后 ，AMD 在 2010 年 引入 了 一 种 
新 的 名 为 Bulldozer 的 微 架 构 。Bulldozer 微 架 构 包 含 了 SSE3, SSE4.1, SSE4.2, SSE4a 以 
及 AVX 技 术 。 它 还 加 入 了 FMA4，FMA4 是 融合 乘 加 ( fused-multiply-add) 的 “四 操作 数 ” 
版 本 。 与 不 支持 SSE4a 的 情况 类 似 ， 英 特 尔 处 理 器 中 也 没有 FMA4。 继 Bulldozer 微 架 构 之 
后 , 2012 年 , AMD 推出 的 Piledriver 微 架 构 既 包含 了 FMA4， 也 包含 了 FMA 的 “三 操作 数 ” 
版 本 ,一 些 CPU 特征 检测 工具 和 第 三 方 的 文档 将 其 称 为 FMA3。 


1.2 ”数据 类 型 

x86-32 核心 架构 支持 的 数据 类 型 很 广泛 ， 其 中 的 大 部 分 都 是 从 少数 的 基本 数据 类 型 衍 
生出 来 的 。 应 用 程序 最 常 操 作 的 数据 类 型 包括 有 符号 和 无 符号 整数 、 标 量 的 单 精度 浮 点 和 双 
精度 浮 点 数 、 字 符 、 文 本 串 和 组 合 数 值 (packed value)。 这 一 节 将 比较 详细 地 介绍 这 些 数 据 
类 型 以 及 x86 支持 的 其 他 数据 类 型 。 
1.2.1 基本 数据 类 型 


基本 数据 类 型 是 处 理 器 执行 程序 时 操纵 的 基本 数据 单位 。x86 平台 全 面 支持 从 8 位 (1 
字 节 ) 到 256 位 (32 字 节 ) 这 一 广泛 区 间 内 的 基本 数据 类 型 。 表 1-1 列 出 了 这 些 类 型 以 及 它 
们 的 典型 用 途 。 


XX 1-1 x86 的 基本 数据 类 型 





数据 类 型 位 数 典型 用 途 
字 节 | 8 — | 字符 、 整 数 、 二 进 制 编码 (BCD) 的 数据 
双 字 整数 、 单 精度 浮 点 数 
四 字 | 64 O 整数 、 双 精度 浮 点 数 、 组 合 整数 
五 字 (Quintword) | 08 — | 双 扩展 精度 浮 点 数 ， 组 合 BCD 
双 四 字 128 组 合 整 数 、 组 合 浮 点 数 
四 四 字 256 组 合 整数 、 组 合 浮 点 数 


不 足 为 奇 ， 大 多 数 基 本 数据 类 型 的 长 度 都 是 2 的 整数 寡 。 主 要 的 特例 是 80 位 宽 的 “五 
字 ”( Quintword)， 它 主要 是 用 在 x87 浮 点 单元 (FPU) 中 支持 双 扩 展 精 度 浮 点 数 和 组 合 BCD 
数值 。 

我 们 经 常 从 右 到 左 对 基本 数据 类 型 的 二 进 制 位 进行 编号 ，0 和 长 度 -1 分 别 用 来 代表 最 
低位 和 最 高 位 。 长 度 大 于 1 个 字 节 的 基本 数据 类 型 在 内 存 中 按照 最 低位 字 节 在 最 低地 址 的 顺 
序 连续 存储 。 这 种 方式 的 内 存 布局 被 称 为 小 端 存储 (little endian)。 图 1-1 列 出 了 基本 数据 
类 型 的 位 编号 和 字 节 顺序 。 








位 编号 
no z 2 z gi wel 
» è Iu mee 
3 3 PEE o iles 
ENIM ile 
: | || ite 

四 四 字 

= ru 7 - T T 
T 3 "EP. 1 wu 
it +, ty lO oi] 
Z Z: Za oz A zz 

内 存 地 址 


图 1-1 基本 数据 类 型 的 位 编号 和 字 节 顺序 


如 果 基 本 数据 类 型 (数据 ) 的 内 存 地 址 可 以 被 它 的 长 度 ( 字 节 数 ) 整除 ， 那 么 这 个 数据 
就 是 内 存 对 齐 的 。 举 例 来 说 ， 如 果 一 个 双 字 整数 的 地 址 是 可 以 被 4 整除 的 ， 那么 它 就 是 内 存 
对 齐 的 。 类 似 地 ， 如 果 “ 四 字 ” 整 数 的 地 址 可 以 被 8 ERE, 那么 它 也 是 内 存 对 齐 的 。 除 非 
操作 系统 特别 启用 ，x86 处 理 器 一 般 情 况 下 不 要 求 多 字 节 数据 类 型 必须 内 存 对 齐 。 一 个 例外 
是 x86-SSE 和 x86-AVX 指令 集 ， 它 们 通常 要 求 按 “ 双 四 字 ”(double quadword) 和 “四 四 字 ” 
(quad quadword) 进行 内 存 对 齐 。 第 7 章 和 第 12 章 将 详细 讨论 x86-SSE 和 x86-AVX 操作 数 
的 对 齐 需 求 。 不 论 硬件 是 否 有 强制 内 存 对 齐 规则 ， 我 们 都 强烈 建议 尽 最 大 可 能 让 多 字 节 基本 
数据 类 型 内 存 对 齐 ， 以 避免 处 理 器 访问 不 对 齐 的 数据 时 所 产生 的 性 能 损失 。 


1.2.2 ”数值 数据 类 型 
数值 数据 类 型 是 像 整数 或 者 浮 点 数 这 样 的 基本 数值 。CPU 能 够 识别 的 所 有 数值 数据 类 型 是 
使 用 前 一 小 节 讨 论 的 基本 数据 类 型 表示 的 。 可 以 把 数值 数据 类 型 分 为 两 类 : 标量 的 和 组 合 的 。 
标量 数据 类 型 用 来 做 离散 数值 的 运算 。x86 平台 支持 一 系列 标量 数据 类 型 ， 有 点 像 
C/C++ 中 的 基本 数据 类 型 。 表 1-2 列 出 了 这 些 数据 类 型 。x86-32 指令 集 对 8 位、16 位 和 32 
位 的 标量 整数 运算 具有 内 建 的 支持 ， 包 括 有 符号 和 无 符号 。 一 些 指令 也 能 操作 64 位 的 数值 。 
不 过 完整 的 64 位 数值 支持 需要 x86-64 模式 。 


表 1-2 x86 数值 数据 类 型 





类 型 等 价 的 C/C++ 类 型 
char 
有 符号 整数 
int, long 





long long 
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等 价 的 C/C++ 类 型 


unsigned char 















unsigned short 





unsigned int, unsigned long 





unsigned long long 





float 
double 





long double 


x87 FPU 支持 三 种 不 同 的 标量 浮 点 编码 方法 ,覆盖 从 32 位 到 80 位 的 各 种 浮 点 数 。x86 
汇编 语言 函数 可 以 任意 选用 这 些 编码 方法 。 但 需要 指出 的 是 ，C/C++ 中 的 80 位 双 扩 展 精 度 
浮 点 数 的 编码 方法 是 不 统一 的 。 有 些 编译 器 对 double 和 long double 都 使 用 64 位 编码 。 第 3 
章 介 绍 x87 FPU 和 它 支 持 的 数据 类 型 时 将 详细 讨论 这 些 细节 ，。 
1.2.3 ”组合 数据 类 型 

x86 平台 支持 很 多 种 组 合 数据 类 型 ( packed data type )， 用 来 对 整数 或 者 浮 点 数 做 SIMD 
计算 。 举 例 来 说 ,一 个 64 位 宽 的 组 合 数 据 类 型 可 以 容纳 八 个 8 位 整数 、 四 个 16 位 整数 或 者 
两 个 32 位 整数 。 一 个 256 位 宽 的 组 合 数据 类 型 可 以 容纳 很 多 种 数据 组 合 ， 包括 32 个 8 位 整 
数 、8 个 单 精度 浮 点 数 或 者 4 个 双 精 度 浮 点 数 。 表 1-3 列 出 了 有 效 的 组 合 数据 类 型 以 及 它们 
可 以 容纳 的 数据 元 素 类 型 和 最 大 数据 元 素 个 数 。 


表 1-3 组合 数据 类 型 





组 合 位 数 数据 元 素 类 型 元 素数 量 
8 位 整数 8 
64 16 位 整数 4 





32 位 整数 2 
8 位 整数 16 
32 位 整数 4 
4 
2 











单 精度 浮 点 数 








双 精 度 浮 点 数 
32 
s 
8 
4 


单 精度 浮 点 数 





双 精 度 浮 点 数 


正如 本 章 前 面 所 讨论 的 ， 在 过 去 几 年 中 ，x86 平 台 一 直 在 加 入 对 SIMD 的 增强 ， 从 
MMX 技术 到 最 近 的 AVX2。 这 些 增强 的 一 个 问题 是 表 1-3 中 描述 的 组 合 数据 类 型 和 与 其 关 
联 的 指令 并 不 被 所 有 处 理 器 支持 。 使 用 x86 汇编 语言 编程 的 开发 者 需要 记 住 这 一 点 。 幸 运 的 
是 ， 有 方法 在 运行 期 检查 处 理 器 的 具体 支持 情况 。 





1.24 其 他 数据 类 型 


x86 平台 还 支持 其 他 几 种 零散 的 数据 类 型 ， 包 括 串 ( string)、 位 域 、( bit field)、 二 进 制 
位 串 以 及 二 进 制 编码 十 进 制 数 (BCD) 。 

所 谓 x86 串 ， 就 是 一 块 连续 的 字 节 、 字 或 者 双 字 ， 用 来 支持 基于 文本 的 数据 类 型 和 处 理 
操作 。 举 例 来 说 ，C/C++ 中 的 char 和 wchar t 通常 会 分 别 用 x86 的 字 节 和 字 来 实现 。 也 可 以 
HI x86 串 来 处 理 数组 、 位 图 以 及 类 似 的 连续 数据 块 。x86 指令 集 提供 了 一 系列 指令 对 串 进行 
比较 、 加 载 、 移 动 、 扫 描 和 存储 操作 。 

位 域 (bit field) 是 一 串 连续 的 二 进 制 位 ， 一 些 指令 用 它 来 作 掩 码 值 。 一 个 位 域 可 以 从 一 
个 字 节 的 任意 位 开始 ， 最 多 包含 32 个 二 进 制 位 。 

二 进 制 位 串 是 可 以 最 多 包含 2 -1 个 二 进 制 位 的 连续 二 进 制 位 序列 。x86 指令 集 包 含 了 
很 多 条 指令 来 对 二 进 制 位 串 中 的 二 进 制 位 进行 清 零 、 置 1、 扫描 和 测试 (test) 操作 。 

最 后 介绍 一 下 二 进 制 编码 十 进 制 数 (binary-coded-decimal，BCD)， 它 是 使 用 4 位 无 符 
号 整数 来 表示 的 十 进 制 数 (0 ~ 9 )。x86-32 指令 集 的 指令 可 以 对 组 合 BCD 数据 (每 个 字 节 
2 个 BCD 数字 ) 或 者 非 组 合 BCD 数据 (每 个 字 节 1 个 BCD 数字 ) 进行 基本 运算 。x87 FPU 
也 能 够 从 内 存 中 加 载 80 位 的 BCD 数 ， 也 可 以 把 它们 存 回 内 存 。 


1.3 内 部 架构 


从 程序 运行 的 角度 来 看 ， 可 以 把 一 个 x86-32 处 理 器 的 内 部 架构 划分 为 几 个 独立 的 执行 
单元 ， 包 括 核心 执行 单元 、x87 FPU 以 及 SIMD 执行 单元 。 很 显然 ， 任 何 程序 都 需要 使 用 
核心 执行 单元 所 提供 的 计算 资源 。 是 否 使 用 x87 FPU 和 SIMD 执行 单元 是 根据 需要 选择 的 。 
图 1-2 勾勒 出 了 x86-32 处 理 器 的 内 部 架构 。 





EFLAGS 


程序 状态 和 控制 


指令 指针 















x87 寄 存 器 栈 (MMX 寄存 器 ) AVX/SSE 寄 存 器 


x87 控 制 、 状 态 和 标签 寄存 器 AVX/SSE 控 制 和 状态 


图 1-2. x86-32 内 部 架构 


x86-32 dc R HI 7 





这 一 节 的 余下 部 分 将 详细 介绍 x86-32 的 核心 执行 单元 。 我 们 将 从 这 个 单元 的 寄存 器 组 
开始 ， 包 括 段 寄存 器 、 通 用 寄存 器 、 状 态 标 志 寄 存 器 和 指令 指针 。 接 下 来 我 们 会 讨论 指令 的 
操作 数 以 及 访问 内 存 的 寻 址 模式 。 其 他 执行 单元 将 在 本 书 的 后 续 章节 中 讨论 。 第 3 章 将 探索 
x87 FPU 的 内 部 架构 ,第 5. 7 和 12 章 将 分 别 深入 探讨 MMX、x86-SSE 和 x86-AVX。 


1.3.1 RAGE 


x86-32 核心 执行 单元 使 用 段 寄 存 器 定义 的 逻辑 内 存 模型 供 程 序 执 行 和 存储 数据 使 用 。 
x86 处 理 器 包含 6 个 段 寄 存 器 ， 用 来 标记 代码 、 数 据 和 栈 空间 的 内 存 块 。 当 在 x86-32 保护 
模式 执行 时 ， 段 寄存 器 中 存放 的 是 段 选 择 子 ， 以 其 为 索引 可 以 在 段 描述 符 表 中 找到 一 个 段 
描述 符 ， 段 描述 符 里 定义 了 段 的 各 种 操作 属性 。 段 的 操作 属性 包括 大 小 、 类 型 (代码 或 者 数 
H) 以 及 访问 权限 〈 读 或 者 写 )。 段 寄存 器 的 初始 化 和 管理 一 般 是 由 操作 系统 负责 的 。 大 多 
数 x86-32 应 用 程序 都 不 需要 去 关心 段 寄存 器 是 如 何 配置 的 。 


1.3.2 ”通用 寄存 器 


x86-32 核心 执行 单元 包含 8 个 32 位 的 通用 寄存 器 。 这 些 寄存 器 主要 用 来 做 逻辑 、 算 术 
和 地 址 计算 。 也 可 以 用 它们 来 临时 存放 数据 或 者 指向 内 存 数据 的 指针 。 图 1-3 完整 列 出 了 所 
有 通用 寄存 器 ， 包 括 它们 的 名 字 (用 来 指定 
指令 操作 数 )。 除 了 支持 32 位 操作 数 外 ， 也 
可 以 使 用 通用 寄存 器 来 存放 8 位 或 者 16 位 
操作 数 。 例 如 ， 一 个 函数 可 以 使 用 寄存 器 
AL、BL、CL 和 DL 来 yj 问 EAX、EBX、 
ECX 和 EDX 的 最 低 字 节 (8 位)。 类 似 的 ， 
可 以 使 用 AX、BX、CX 和 DX 来 访问 低 
16 位 字 。 

尽管 名 字 叫 通用 寄存 器 ， 但 是 x86-32 
指令 集 还 是 对 它们 的 用 法 强加 了 一 些 约束 。 





一 些 指令 需要 或 隐 含 使 用 特定 的 寄存 器 作 — emnes 
为 操作 数 。 举 例 来 说 ， 某 些 imul (有 符号 En LA 


乘法 ) 和 idiv (有 符号 除法 ) 指令 使 用 EDX 
寄存 器 来 存放 乘积 或 者 被 除数 的 高 位 双 字 。 串 指令 需要 把 源 操作 数 和 目标 操作 数 的 地 址 分 别 
放 到 ESI 和 EDI 寄存 器 中 。 包 含 循环 前 级 的 串 指 令 必须 使 用 ECX 作为 计数 寄存 器 ， 而 很 多 
二 进 制 移 位 和 循环 指令 必须 把 位 计数 值 加 载 到 CL 寄存 器 中 。 

x86-32 处 理 器 使 用 ESP 寄存 器 来 支持 栈 有 关 的 操作 ， 比 如 函数 调用 和 返回 。 栈 本 身 只 
不 过 是 操作 系统 分 配给 进程 或 者 线程 的 一 段 连续 内 存 空 间 。 应 用 程序 也 可 以 使 用 栈 来 传递 
函数 的 参数 以 及 存放 临时 数据 。ESP 寄存 器 总 是 指向 栈 上 的 最 项 一 项 。 尽 管 可 以 把 ESP 寄 
存 器 当 作 通用 寄存 器 来 使 用 ， 但 是 这 种 用 法 是 不 切实 际 的 ， 强 烈 建议 不 要 这 样 做 。 通 常 把 
EBP 寄存 器 用 作 基 址 指针 (base pointer) 来 访问 存储 在 栈 上 的 数据 项 (也 可 以 使 用 ESP 寄存 
器 做 基 址 指针 来 访问 栈 上 的 数据 )。 当 不 用 EBP 做 基 址 指针 时 ， 可 以 把 它 当 作 通 用 寄存 器 来 
使 用 。 

一 些 指令 对 特定 寄存 咒 的 隐 含 或 者 固定 用 法 源 自 x86 处 理 器 的 传统 设计 模式 ， 可 以 追溯 


oo 
~ 





到 8086 寄存 器 ， 其 目的 是 为 了 提高 代码 的 密度 。 从 现代 编程 的 角度 来 看 ， 这 意味 着 开发 者 
在 编写 x86-32 汇编 程序 时 必须 对 这 些 传 统 的 寄存 器 使 用 协议 格外 小 心 。 表 1-4 列 出 了 通用 
寄存 器 的 传统 用 法 


表 1-4 通用 寄存 器 的 传统 用 法 

















寄存 器 传统 用 法 

EAX 累加 器 

EBX 内 存 指针 ， 基 址 寄存 器 

ECX 循环 控制 ， 计 数 器 

EDX 整数 乘法 ， 整 数 除法 

ESI RSME, Aol are at 
EDI qs Hbdstr. Bal Ay FF at 
ESP 栈 指针 

EBP 栈 帧 基 址 指针 


有 几 点 需要 解释 一 下 : 表 1-4 列 出 的 传统 用 法 只 是 一 般 情 况 ， 并 不 是 强制 的 。 举 例 来 说 ， 
如 果 应 用 程序 把 ECX 寄存 器 用 作 内 存 指针 ， 那 么 x86-32 指令 集 也 并 不 阻止 这 样 做 ， 虽 然 
ECX 的 传统 用 法 是 TPR. Mi EL. x86 汇编 器 也 不 强制 这 些 传统 用 法 。 考 虑 到 x86-32 模式 

下 只 有 很 有 限 的 通用 寄存 器 可 以 使 用 ， 以 非 传 统 方 式 使 用 通用 寄存 器 在 很 多 时 候 是 必需 的 
BLENDE K 1-4 列 出 的 传统 用 法 与 C++ 等 高 级 编程 语言 中 定义 的 调用 约定 并 不 
是 一 回 事 。 第 2 章 将 进一步 讨论 和 观察 调用 约定 。 


1.8.8 EFLAGS 寄存 器 


EFLAGS 寄存 器 包含 一 系列 状态 位 ， 处 理 器 使 用 它们 来 指示 逻辑 或 者 算术 运算 的 结果 
它 还 包含 了 一 组 系统 控制 位 ， 主 要 供 操 作 系 统 使 用 。 表 1-5 列 出 了 EFLAGS 寄存 器 中 的 各 
[un] 个 二 进 制 位 。 


表 1-5 EFLAGS 寄存 器 





























位 | o oaa | a —| 用 法 
0 进位 标志 L. e —( ] 状态 
1 tu 1 
3 UNE A 0 
4 TEE [—— AF | Ms 
s m Eee 
6 状态 
8 | 系统 
9 | eane OOOO O P O 系统 
r [ wk | | CIT 
I PUDE [| — or ] RS 
2 VO 特权 级 别 位 0 系统 





13 VO 特权 级 别 位 1 IOPL 系统 











x86-32 SRH 9 


位 — — c — 用 法 


























15 0 

16 "TT 志 系统 
17 虚拟 8086 模式 系统 
18 NI 系统 
19 a we 系统 
20 es 而 Im 系统 


对 应 用 程序 来 说 ，EFLAGS 寄存 器 中 最 重要 的 位 是 以 下 状态 标志 : 辅助 进位 标志 (AF), 
进位 标志 ( CF)、 溢 出 标志 (OF)、 奇 偶 校 验 标志 ( PF)、 符 号 标志 (SF) 以 及 0 标志 (ZF) 
辅助 进位 标志 et toa i eh ee ene ge 如 果 
发 生 洲 出 ， 处 理 带 会 设置 进位 标志 。 一 些 循 环 和 移 位 指令 也 会 使 用 进位 标志 。 淤 出 标志 用 来 
指示 有 符号 运算 的 结果 太 小 或 者 太 大 。 奇 偶 校 验 标志 E # 果 的 最 低 字 节 《二 进 抽 
表示 ) 包含 1 的 个 数 是 否 为 偶数 。 符 号 标志 和 零 标志 供 逻辑 和 算术 指令 来 指示 结果 是 否 为 负 
数 、0 或 者 正 数 。 

EFLAGS 寄存 器 还 包含 了 一 个 称 为 方向 标志 (DF) 的 控制 位 。 应 用 程序 可 以 设置 或 者 清 
除 方向 标志 ， 以 定义 串 指 令 执 行 时 EDI 和 ESI 寄存 器 自动 递增 的 方向 (0= 从 低地 址 到 高 地 
址 ，1= 从 高 地 址 到 低地 址 )。EFLAGS 寄存 器 的 其 他 各 个 位 是 供 操 作 系 统 来 管理 中 断 、LO 
操作 和 支持 程序 调试 。 应 用 程序 不 应 该 修改 这 些 位 。 应 用 程序 也 不 应 该 修改 任何 保留 位 ， 也 
不 能 假定 保留 位 的 状态 。 


1.3.4 指令 指针 


指令 指针 寄存 器 (EIP) 中 包含 着 CPU 将 要 执行 的 下 一 条 指令 的 偏 移 。EIP 寄存 器 是 由 
控制 转移 指令 按 隐 含 规则 自动 管理 的 。 举 例 来 说 ，call 指令 (调用 过 程 ) 会 把 EIP 寄存 器 的 
值 压 到 栈 上 ， 然 后 把 程序 控制 转移 到 操作 数 所 指定 的 地 址 。 而 ret 指令 (从 过 程 返回 ) 会 把 
栈 上 的 最 项 一 项 弹出 到 EIP 寄存 器 中 ， 把 程序 控制 转移 到 该 项 所 指定 的 地 址 。 

H^? jmp (BEE) 和 jcc (满足 条 件 则 跳 转 ) 也 会 通过 修改 EIP 寄存 器 的 值 来 转移 程序 控 
制 。 与 call 指令 和 ret 指令 不 同 ， 所 有 的 x86-32 跳 转 指令 执行 时 都 不 会 访问 栈 。 还 应 该 说 明 
的 是 ， 当 前 正在 执行 的 任务 是 不 可 能 直接 访问 到 EIP 寄存 器 的 。 


1.3.5 ”指令 操作 数 


大 多 数 x86-32 指令 都 是 使 用 操作 数 的 ， 操 作 数 代表 着 指令 要 进行 操作 的 具体 值 。 几 
乎 所 有 指令 都 需要 一 个 或 者 更 多 的 源 操作 数 和 一 个 目标 操作 数 ， 而 且 大 多 数 指令 都 需要 程 
序 员 显 式 指定 源 操 作 数 和 目标 操作 数 。 不 过 ， 也 有 一 些 指令 是 隐 含 指定 操作 数 或 者 强制 指 
定 的 。 

可 以 把 操作 数 分 成 三 种 基本 的 类 型 : 立即 数 、 寄 存 器 和 内 存 。 立 即 数 操作 数 是 一 TS 
量 ， 它 的 值 会 被 编码 到 指令 当中 ， 成 为 指令 的 一 部 分 。 这 种 操作 数 通常 用 来 指定 算术 常 


[12 | 


10 ABl 


逻辑 常量 或 者 偏 移 值 。 只 可 以 在 源 操作 数 中 使 用 立即 数 。 寄 存 器 操作 数 包含 在 通用 寄存 带 
中 。 内 存 操作 数 指定 的 是 数据 在 内 存 中 的 位 置 ， 可 以 包含 本 章 前 面 讨 论 的 各 种 数据 类 型 。 在 
一 条 指令 中 可 以 用 内 存 操作 数 作为 源 操作 数 ， 或 者 作为 目标 操作 数 ， 但 是 不 可 以 同时 使 用 。 
表 1-6 包含 了 一 些 指令 示例 ， 它 们 使 用 了 不 同类 型 的 操作 数 。 


表 1-6 ”指令 操作 数 示例 


xu Fin Co WH 
ETT = 
eer veh eeD 
X 1-6 中 的 mul 指令 (无 符号 乘法 ) 是 使 用 隐 含 操作 数 的 一 个 例子 。 在 这 个 例子 中 ， 隐 


式 使 用 的 寄存 器 EAX 和 显 式 使 用 的 寄存 器 EBX 被 用 作 源 操作 数 ; 隐 式 使 用 的 寄存 器 对 
EDX : EAX 被 用 作 目 标 操作 数 。 乘 积 的 高 位 双 字 和 低位 双 字 分 别 存放 在 EDX 和 EAX 寄存 
器 中 。 

最 后 一 个 内 存 例子 中 的 word ptr 是 汇编 器 使 用 的 运算 符 ， 作 用 相当 于 C++ 中 的 cast 运 
算 符 。 在 这 个 例子 中 ，EDI 寄存 器 指向 的 16 位 的 内 存 数据 会 被 减 掉 12。 如 果 没 有 这 个 类 型 
转换 运算 符 ， 那么 这 条 汇编 语句 就 是 有 歧义 的 ， 汇 编 器 不 能 确定 EDI 寄存 器 所 指向 的 操作 
数 的 大 小 。 在 这 个 例子 中 ,操作 数 也 可 以 是 8 位 或 者 32 位 的 数值 。 本 书 的 编程 章节 将 更 多 
介绍 汇编 操作 符 以 及 汇编 指示 符 的 用 法 。 


1.3.6 ”内 存 寻 址 模式 


x86-32 指令 集 支 持 最 多 使 用 四 个 部 分 来 指定 内 存 操作 数 。 这 四 个 部 分 分 别 是 : 一 个 固 
定 不 变 的 位 移 值 、 一 个 基 址 寄存 器 、 一 个 索引 寄存 器 和 一 个 放大 因子 。 当 处 理 器 取 到 一 条 使 
用 内 存 操作 数 的 指令 后 ， 它 会 计算 实际 地 址 〈effective address) 以 决定 操作 数 的 最 终 内 存 地 
址 。 实 际 地 址 是 这 样 计算 的 : 

Effective Address = BaseReg + IndexReg * ScaleFactor + Disp 
(实际 地 址 = 基 址 寄存 器 十 索引 寄存 器 * 放大 因子 十 位 移 ) 

可 以 使 用 任何 通用 寄存 器 作为 基 址 寄存 器 (BaseReg); 索引 寄存 器 (IndexReg) 也 是 可 
以 使 用 任何 通用 寄存 器 的 ， 但 ESP 除外 ; 位 移 (Disp) 值 是 常数 值 ， 会 被 编码 到 指令 当中 ; 
有 效 的 放大 因子 ( ScaleFactor) 包括 1、2、4 和 8。 最 终 的 实际 地 址 总 是 32 位 大 小 的 。 对 于 
一 条 指令 来 说 ， 没 有 必要 显 式 指定 计算 实际 地 址 的 所 有 四 个 部 分 。x86-32 指令 集 支持 8 种 不 
同 的 内 存 操作 数 寻 址 方式 ， 如 表 1-7 所 示 。 
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表 1-7 内 存 操作 数 的 寻 址 方式 





寻 址 方式 示例 
Disp mov eax, [My Val] 
BaseReg mov eax, [ebx] 
BaseReg + Disp mov eax, [ebx+12] 
Disp + IndexReg * SF mov eax, [MyArray+esi*4] 
BaseReg + IndexReg mov eax, [ebx+esi] 
BaseReg + IndexReg + Disp mov eax, [ebx+esi+12] 
BaseReg + IndexReg * SF mov eax, [ebx+esi*4] 
BaseReg + IndexReg * SF + Disp mov eax, [ebx+esi*4+20] 


表 1-7 中 的 例子 演示 了 如 何在 mov (Move) 指令 中 使 用 不 同 格式 的 内 存 操作 数 。 在 这 些 
例子 中 ， 实 际 地 址 所 指向 内 存 位 置 的 双 字 数值 会 被 复制 到 EAX 寄存 器 中 。 

表 1-7 中 列 出 的 大 多 数 寻 址 方式 可 以 用 来 引用 普通 的 数据 类 型 ， 也 可 以 用 来 引用 数据 结 
构 。 举 例 来 说 ， 简 单 的 位 移 方式 经 带 用 来 访问 全 局 变量 或 者 静态 变量 。 基 址 寄存 需 方 式 与 
C++ 中 的 指针 很 类 似 ， 用 于 引用 某 个 值 。 访 问 数据 结构 中 的 某 个 字段 时 ， 可 以 使 用 基 址 寄存 
器 指向 结构 体 ， 用 位 移 指定 字段 的 偏 移 。 索 引 寄 存 器 用 于 访问 数组 中 的 某 个 元 素 。 放 大 因子 
有 助 于 访问 数组 中 的 各 个 元 素 ， 元 素 的 类 型 可 以 是 整数 、 单 精度 浮 点 数 和 双 精 度 浮 点 数 。 而 
基 址 寄存 器 和 索引 寄存 器 结合 起 来 使 用 对 访问 二 维 数组 中 的 元 素 是 很 有 用 的 。 
1.4 指令 集 浏览 

本 小 节 将 对 x86-32 指令 集 做 一 个 简要 的 浏览 ， 其 目的 是 帮助 大 家 对 x86-32 指令 集 有 一 
个 比较 全 面 的 理解 。 指 令 的 描述 力求 简洁 ， 因 为 唾 手 可 得 的 英特尔 和 AMD 参考 手册 里 包含 
了 每 一 条 指令 的 全 部 细节 ， 包 括 执行 经 过 、 有 效 操作 数 、 会 影响 的 标志 以 及 可 能 促 发 的 异 
常 。 附 录 C 包含 了 这 些 手册 的 完整 列表 。 第 2 章 中 的 编程 示例 演示 了 这 些 指令 的 用 法 ， 并 
给 出 了 更 多 解释 。 

许多 x86-32 指令 会 更 新 EFLAGS 寄存 器 中 的 一 个 或 者 多 个 状态 标志 。 正 如 本 章 前 面 讨 
论 的 那样 ， 这 些 状态 标志 提供 了 关于 运算 结果 的 更 多 信息 。 指 令 jcc、cmovcc (Conditional 
Move) 和 setcc ( Set Byte on Condition) 使 用 所 谓 的 条 件 码 来 测试 状态 标志 ， 要 么 测试 其 中 
的 单个 标志 ， 要 么 测试 多 个 标志 的 组 合 。 表 1-8 列 出 了 条 件 码 、 助 记 后 级 以 及 这 些 指令 使 用 
的 标志 。 注 意 在 最 后 一 列 中 ，C++ 的 运算 符 ==、!=、&& 和 | 分 别 用 来 表示 等 于 、 不 等 于 、 
逻辑 与 和 逻辑 或 。 


表 1-8 条 件 码 、 助 记 后 缀 和 测试 条 件 
条 件 码 助 记 后 缀 测试 条 件 


| Dema | 
Neither below or equal 
Above or equal CF==0 
Neither above nor equal 
Below or equal CF==1||ZF==1 
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CHE) 
条 件 码 测试 条 件 
Zero 
Not zero NZ 
Greater G ZF--0 && SF == OF 
Neither less nor equal NLE 




















Greater or equal GE SF == OF 

Less L SF != OF 

Neither greater nor equal NGE 

Less or equal LE ZF == 1 || SF != OF 
Not greater NG 

Cary cr 

Not overflow NO OF == 0 

Parity P PF == 1 


# 1-8 中 的 许多 条 件 码 故意 使 用 了 不 同 的 助 记 后 级 ， 目 的 是 为 了 提高 程序 的 可 读 性 。 当 
前 面 提 到 的 条 件 指令 的 操作 数 是 无 符号 整数 时 ， 条 件 码 里 用 的 是 “above” 和 “below”， 如 
果 是 有 符号 整数 ， 那 么 用 的 是 “ greater” 和 “1less”。 如 果 你 对 表 1-8 中 的 条 件 码 定义 有 困 
惑 或 者 觉得 太 抽象 ， 不 必 担 心 ,在 后 面 的 章节 中 你 将 发 现 包 含 条 件 码 的 例子 遍布 全 书 。 

为 了 帮助 你 理解 x86-32 指令 集 ， 根 据 指令 的 功能 ， 可 以 把 它们 划分 为 如 下 几 大 类 : 

e 数据 传输 

e 数据 比较 

e 数据 转换 

e 二 进 制 算 术 

e 逻辑 运算 

e 旋转 和 移 位 

e 字 节 设置 和 二 进 制 位 串 

o Ff 

e 标志 操纵 

e 控制 转移 

e 其 他 指令 

在 接 下 来 的 指令 描述 中 ,通用 寄存 器 将 被 简称 为 GPR 。 
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数据 传输 


数据 传输 组 的 指令 可 以 在 两 个 通用 寄存 器 之 间或 者 通用 寄存 顺和 内 存 之 间 复 制 和 交换 数 
据 ， 既 支持 按 条 件 移动 数据 ， 也 支持 无 条 件 移 动 数据 。 这 个 指令 组 还 包括 把 数据 压 人 栈 或 者 
从 栈 弹出 数据 的 指令 。 表 1-9 简要 描述 了 数据 传输 指令 。 


表 1-9 数据 传输 指令 














助 记 符 jd x 
mov 在 内 存 和 GPR 之 问 复制 数据 。 也 可 以 把 立即 数 复制 到 GPR 或 者 内 存 
cmovcc 把 内 存 或 者 GPR 中 的 数据 有 条 件 地 复制 到 GPR。 助 记 符 中 的 co 代表 表 1-8 中 的 条 件 码 
把 一 个 GPR 、 内 存 位 置 或 者 立即 数 压 到 栈 里 。 这 条 指令 把 ESP 的 值 减 去 4， 然后 把 指定 的 操作 数 
2d 复制 到 ESP 指向 的 内 存 
从 栈 上 弹出 最 顶 的 一 项 。 这 条 指令 会 把 ESP 指向 的 内 存 内 容 复 制 到 指定 的 GPR 或 者 内 存 位 置 ， 
ind 然后 对 ESP 加 4 
pushad 把 所 有 八 个 GPR HOA FE 
popad 从 栈 中 弹出 数据 ， 恢 复 所 有 八 个 GPR 的 内 容 。ESP 的 栈 中 的 值 会 被 忽略 
di 在 两 个 GPR 或 者 一 个 GPR 和 一 个 内 存 位 置 间 交 换 数 据 。 如 果 这 条 指令 使 用 的 是 寄存 器 和 内 存 间 
的 交换 ， 那 么 处 理 器 会 使 用 一 种 加 锁 的 总 线 操 作 
xadd 在 两 个 GPR 或 者 一 个 GPR 和 一 个 内 存 位 置 间 交 换 数据 。 两 个 操作 数 的 和 会 被 保存 到 目标 操作 数 
movsx 把 GPR 或 者 指定 内 存 位 置 的 内 容 做 符号 扩展 ， 并 把 结果 复制 到 GPR 
movzx 把 GPR 或 者 指定 内 存 位 置 的 内 容 做 零 扩 展 ， 并 把 结果 复制 到 GPR 
1.4.2 “二进制 算术 


二 进 制 算术 组 的 指令 用 于 对 有 符号 和 无 符号 整数 进行 加 减 乘除 运算 。 这 组 指令 也 包括 对 


组 合 BCD 数据 和 非 组 合 BCD 数据 进行 调整 。 表 1-10 描述 了 二 进 制 算术 组 的 指令 。 


表 1-10 二进制 算术 指令 
fs x5 

把 源 操作 数 和 目标 操作 数 相 加 。 这 条 指令 既 可 以 用 于 有 符号 整数 ， 也 可 以 用 于 无 符号 整数 

把 源 操 作 数 、 目 标 操 作 数 和 EFLAGS.CY 相 加 。 这 条 指令 既 可 以 用 于 有 符号 整数 ， 也 可 以 用 于 无 符号 
整数 

从 目标 操作 数 减 去 源 操作 数 。 这 条 指令 既 可 以 用 于 有 符号 整数 ， 也 可 以 用 于 无 符号 整数 

从 目标 操作 数 减 去 源 操 作 数 和 EFLAGS.CY。 这 条 指令 既 可 以 用 于 有 符号 整数 ， 也 可 以 用 于 无 符号 整数 

对 两 个 操作 数 做 有 符号 乘法 。 这 条 指令 支持 多 种 形式 ， 包 括 单一 的 源 操 作 数 (AL. AX 或 者 EAX 作 
为 隐 含 的 操作 数 )、 显 式 的 源 操 作 数 和 目标 操作 数 ， 还 有 一 种 三 操作 数 变 体 (立即 数 源 、 内 存 / 寄存 器 源 
和 GPR Hf) 








对 源 操作 数 和 AL、AX 或 EAX 寄存 器 做 无 符号 乘法 。 结 果 会 被 保存 到 AX、DX : AX 或 者 EDX : 
EAX 9j ff d 

有 符号 除法 ， 使 用 AX、DX:AX 或 者 EDX:EAX 作 被 除数 ， 源 操作 数 作 除数 。 得 到 的 商 和 余数 会 被 保 
存 到 寄存 器 对 AL:AH、AX:DX 或 者 EAX:EDX 

无 符号 除法 ， 使 用 AX、DX:AX 或 者 EDX:EAX 作 被 除数 ， 源 操作 数 作 除 数 。 得 到 的 商 和 余数 会 被 保 
存 到 寄存 器 对 AL:AH、AX:DX 或 者 EAX:EDX 

对 指定 操作 数 加 一 。 这 条 指令 对 EFLAGS.CY 的 值 不 会 产生 影响 

对 指定 操作 数 减 一 。 这 条 指令 对 EFLAGS.CY 的 值 不 会 产生 影响 

计算 指定 操作 数 的 2 的 补 码 
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助 记 符 HOR 
daa 跟随 在 对 组 合 BCD 数 做 加 法 的 指令 之 后 ， 调 整 AL 寄存 器 的 值 ， 以 便 产 生 正 确 的 BCD 结 
das 跟随 在 对 组 合 BCD 数 做 减法 的 指令 之 后 ， 调 整 AL 寄存 器 的 值 ， 以 便 产生 正确 的 BCD 结果 
aaa 跟随 在 对 非 组 合 BCD 数 做 加 法 的 指令 之 后 ， 调 整 AL 寄存 器 的 值 ， 以 便 产 生 正 确 的 BCD 结果 
aas 跟随 在 对 非 组 合 BCD 数 做 减法 的 指令 之 后 ， 调 整 AL 寄存 器 的 值 ， 以 便 产 生 正 确 的 BCD 结果 
aam 跟随 在 对 非 组 合 BCD 数 做 乘法 的 指令 之 后 ， 调 整 AX 寄存 器 的 值 ， 以 便 产生 正确 的 BCD £i 
aad 调整 AX 寄存 器 的 值 ， 为 非 组 合 BCD 除法 做 准备 。 这 条 指令 用 在 对 非 组 合 BCD 数 做 除法 的 指令 之 前 


1.4.8 数据 比较 
数据 比较 组 的 指令 用 于 比较 两 个 操作 数 ， 然 后 设置 不 同 的 状态 标志 ， 以 指示 比较 的 结 
果 。 表 1-11 列 出 了 数据 比较 指令 。 


表 1-11 数据 比较 指令 












通过 从 目标 操作 数 中 减 去 源 操作 数 来 比较 两 个 操作 数 ， 然 后 设置 状态 标志 。 相 减 的 结果 会 被 
丢弃 。 通 常用 在 jcc 、cmovcc 和 setce 指令 之 前 
i AL. AX 或 者 EAX 寄存 器 中 的 内 容 与 目标 操作 数 做 比较 ， 并 根据 比较 结果 进行 交换 


把 EDX: EAX 与 一 个 8 字 节 内 存 操作 数 做 比较 ， 并 根据 结果 进行 交换 









cmpxchg 








cmpxchg8b 





1.4.4 数据 转换 

数据 转换 组 中 的 指令 用 于 对 AL、AX 或 者 EAX 寄存 器 中 的 整数 做 符号 扩展 。 所 谓 符 
号 扩展 ， 就 是 把 源 操 作 数 的 符号 位 复制 到 目标 操作 数 的 高 位 。 举 例 来 说 ， 如 果 要 把 8 位 数 
Oxe9 (-23 ) 做 符号 扩展 到 16 位 ， 便 会 得 到 0xffe9。 这 组 指令 还 包括 那些 把 小 端 格式 (little- 
endian) 的 数据 转换 到 大 端 格式 (big-endian) 的 指令 。 表 1-12 列 出 了 数据 转换 组 的 各 条 指令 。 


表 1-12 数据 转换 指令 














助 记 符 d x 

cbw 对 寄存 器 AL 做 符号 扩展 ， 然 后 把 结果 保存 到 寄存 器 AX 

cwde 对 寄存 器 AX 做 符号 扩展 ， 然 后 把 结果 保存 到 寄存 器 EAX 

cwd 对 寄存 器 AX 做 符号 扩展 ， 然 后 把 结果 保存 到 寄存 器 对 DX:AX 

cdq 对 寄存 器 EAX 做 符号 扩展 ， 然 后 把 结果 保存 到 寄存 器 对 EDX:EAX 


bswap 颠倒 32 位 GPR 中 的 字 节 ， 把 原来 的 数据 从 小 端 格式 转换 成 大 端 格 式 ， 或 者 做 相反 操作 
把 源 操作 数 加 载 到 临时 寄存 器 ， 匡 倒 各 个 字 节 ， 然 后 把 结果 保存 到 目标 操作 数 。 这 条 指令 可 以 把 
movbe “| 源 操作 数 从 小 端 格式 转换 为 大 端 格式 ， 或 者 相反 。 其 中 一 个 操作 数 必 须 是 内 存 位 置 ， 另 一 个 必须 是 
GPR 
xlatb 通过 查找 EBX 寄存 器 所 指向 的 数据 表 把 AL 寄存 器 中 包含 的 数据 转换 为 另 一 个 数据 


1.4.5 ”逻辑 运算 
逻辑 运算 组 的 指令 用 来 对 指定 操作 数 按 位 做 逻辑 运算 。 处 理 器 会 更 新 状态 标志 EFLAGS.PF、 
EFLAGS.SF fil EFLAGS.ZF 以 反映 这 些 指令 的 结果 ， 除 非特 别 说 明 。 表 1-13 FY p.37 f 3s 
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算 组 的 各 条 指令 。 
1-43 ”逻辑 指令 
助 记 符 描 g 
and | 对 源 操作 数 和 目标 操作 数 做 按 位 与 操作 


1.4.6 


对 源 操 作 数 和 目标 操作 数 做 按 位 或 操作 

对 源 操作 数 和 目 EROR 异 或 操作 

计算 指定 操作 数 的 1 的 补 数 。 这 条 指令 不 影响 状态 标志 

对 源 操作 数 和 目标 操作 数 做 按 位 与 操作 ， 然 后 丢弃 结果 。 这 条 指令 用 来 以 无 损 的 方式 (non- 
destructively) 设置 状态 标志 





旋转 和 移 位 


这 一 组 中 的 指令 用 来 对 操作 数 做 旋转 和 移 位 。 这 些 指令 有 几 种 格式 ， 有 的 是 对 单个 位 
进行 操作 ， 有 的 是 对 多 个 位 进行 操作 。 旋 转 和 移动 多 个 位 时 ， 使 用 CL 寄存 器 来 指定 位 的 个 
数 。 旋 转 操作 可 以 影响 进位 标志 ， 也 可 以 不 影响 进位 标志 。 表 1-14 列 出 了 旋转 和 移 位 指令 。 


1.4.7 


R 1-14 旋转 和 移 位 指令 





助 记 符 d x 

rcl 向 左旋 转 指定 的 操作 数 。 标 志 DFLAGS.CY 作为 其 中 的 一 部 分 
rer 向 右 旋转 指定 的 操作 数 。 标 志 DFLAGS.CY 作为 其 中 的 一 部 分 
rol 向 左旋 转 指定 的 操作 数 

TOT 向 右 旋转 指定 的 操作 数 

sal/shl 对 指定 的 操作 数 进行 算术 左 移 

sar 对 指定 的 操作 数 进行 算术 右 移 

shr 对 指定 的 操作 数 进行 逻辑 右 移 

shld 对 两 个 操作 数 进行 双 精 度 逻 辑 左 移 

shrd 对 两 个 操作 数 进行 双 精 度 逻辑 右 移 


字 节 设置 和 二 进 制 位 串 


字 节 设置 和 二 进 制 位 串 指令 组 包含 了 有 条 件 地 设置 字 节 值 的 指令 ， 也 包含 处 理 二 进 制 位 


串 的 指令 


。 表 1-15 简要 描述 了 字 节 设置 和 二 进 制 位 串 指令 。 


R 1-15 ” 字 节 设置 和 二 进 制 位 串 指令 
描 R 

如 果 cc 指定 的 条 件 码 为 真 ， 则 把 目标 字 节 操作 数 设置 为 1， 否则 设置 为 0 

把 指定 的 测试 位 复制 到 EFLAGS.CY 

把 指定 的 测试 位 复制 到 EFLAGS.CY。 然 后 把 测试 位 设置 为 1 

把 指定 的 测试 位 复制 到 EFLAGS.CY。 然 后 把 测试 位 设置 为 0 

把 指定 的 测试 位 复制 到 EFLAGS.CY。 然 后 把 测试 位 设置 为 0 

扫描 源 操作 数 ， 寻 找 设置 为 1 的 最 低位 ， 把 其 索引 保存 到 目标 操作 数 。 如 果 源 操作 数 是 0， 把 
EFLAGS.ZF 设置 为 1， 否则 把 EFLAGS.ZF 设置 为 0 

扫描 源 操作 数 ， 寻 找 设置 为 1 的 最 高 位 ， 把 其 索引 保存 到 目标 操作 数 。 如 果 源 操作 数 是 0， 把 
EFLAGS.ZF 设置 为 1， 否则 把 EFLAGS.ZF 设置 为 0 





[21] 
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串 指 令 组 包含 的 指令 可 以 对 文本 串 或 者 多 个 内 存 块 进行 比较 、 加 载 、 移 动 、 扫 描 和 存 
储 。 所 有 串 指令 使 用 ESI 寄 存 器 作为 源 指针 ，EDI 寄存 器 作为 目标 指针 。 串 指令 会 根据 方 
向 标志 (EFLAGS.DF) 自动 递增 或 者 递减 这 两 个 寄存 器 。 使 用 指令 前 缀 rep, repe/repz 或 者 
repne/repnz 可 以 重复 执行 串 操 作 ，ECX 寄存 器 用 作 循 环 计数 回 。 表 1-16 列 出 了 串 指令 。 


助 记 符 
cmpsb 
cmpsw 
cmpsd 
lodsb 
lodsw 
lowsd 
movsb 
movsw 
movsd 
scasb 
scasw 
scasd 
stosb 
stosw 
stosd 
rep 
repe 
repz 
repne 
repnz 


R 1-16 RES 
描 x 





比较 ESI 寄存 器 和 EDI 寄存 器 所 指向 内 存 的 值 ， 设 置 状态 标志 指示 比较 结果 


把 ESI 寄存 器 指向 内 存 的 值 加 载 到 AL、AX 或 者 EAX 寄存 器 





将 ESI 寄存 器 指向 的 内 存 的 值 复 制 到 EDI AF FF dS dH IST FF 


把 EDI 寄存 器 指向 的 内 存 值 与 寄存 器 AL, AX 或 者 EAX 中 的 值 作 比较 ， 根 据 比 较 结果 设置 


状态 标志 
JE AL, AX 或 者 EAX 寄存 器 的 内 容 保存 到 EDI 寄存 器 指向 的 内 存 


当 条 件 ECX != 0 为 真 时 重复 指定 的 串 指令 
当 条 件 ECX != 0 && ZF== 1 为 真 时 重复 指定 的 串 指令 


当 条 件 ECX != 0 && ZF== 0 为 真 时 重复 指定 的 串 指令 


1.4.9 标志 操纵 
这 一 组 指令 用 来 操纵 EFLAGS 寄存 器 中 的 一 些 状 态 标 志 。 表 1-17 列 出 了 这 些 指 令 。 


lahf 


sahf 


pushfd 
popfd 


表 1-17 标志 操纵 指令 
描 £ 

把 EFLAGS.CY 设置 为 0 

把 EFLAGS.CY 设置 为 1 

反 转 EFLAGS.CY 的 状态 

把 EFLAGS.DF 设置 为 

把 EFLAGS.DF 设置 为 0 

把 状态 标志 的 值 加载 到 AH 寄存 器 。 加 载 到 AH 寄存 器 中 的 位 (从 最 高 位 到 最 低位 ) 为 : EFLAGS. 
SF, EFLAGS.ZF, 0, EFLAGS.AF, 0, EFLAGS.PF, 1, EFLAGS.CF 

把 AH 寄存 器 的 值 存储 到 状态 标志 。 存 储 到 状态 标志 的 AH 寄存 器 的 位 为 (从 最 高 位 到 最 低位 ) : 
EFLAGS.SF, EFLAGS.ZF, 0, EFLAGS.AF, 0, EFLAGS.PF, 1, EFLAGS.CF (其 中 的 0 和 1 表 
示 设 置 这 些 位 时 会 使 用 这 些 值 ， 而 不 是 用 AH 中 的 对 应 位 ) 

把 EFLAGS 寄存 器 压 进 栈 

从 栈 上 弹出 最 顶 一 项 ， 将 其 复制 到 EFLAGS 寄存 器 。 注 意 ，EFLAGS 寄存 器 中 的 保留 位 不 会 受 影响 
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控制 转移 


控制 转移 组 的 指令 用 于 执行 跳 转 、 函 数 调用 和 返回 以 及 做 循环 。 表 1-18 列 出 了 控制 转 


移 指令 。 


助 记 符 


jmp 
jcc 
call 
ret 
enter 
leave 
jecxz 
loop 
loope 
loopz 
loopne 
loopnz 


一 


.4.11 


助 记 符 
bound 
lea 


nop 


cupid 


表 1-18 控制 转移 指令 
描 x 

无 条 件 跳 转 到 操作 数 所 指定 的 内 存 位 置 
如 果 指定 的 条 件 为 真 ， 则 跳 转 到 操作 数 所 指定 的 内 存 位 置 。 其 中 的 ec 代表 表 1-8 中 列 出 的 条 件 码 
助 记 符 
把 EIP 寄存 器 的 内 容 压 和 人 栈 ， 然 后 无 条 件 跳 转 到 操作 数 所 指定 的 内 存 位 置 
从 栈 上 弹出 目标 地 址 ， 然 后 无 条 件 跳 转 到 那个 地 址 
通过 初始 化 EBP 和 ESP 寄存 器 来 为 函数 建立 函数 参数 和 局 部 变量 所 需 的 栈 帧 
通过 恢复 EBP AI ESP 寄存 器 来 移 除 使 用 enter 指令 建立 的 栈 帧 
如 果 条 件 ECX 一 0 为 真 ， 则 跳 转 到 指定 的 内 存 位 置 
对 ECX 寄存 器 减 1， 如 果 条 件 ECX == 0 为 真 ， 则 跳 转 到 指定 的 内 存 位 置 


对 ECX 寄存 器 减 1， 如 果 条 件 ECX != 0 && ZF == 1 为 真 ， 则 跳 转 到 指定 的 内 存 位 置 


对 ECX 寄存 器 减 1， 如 果 条 件 ECX != 0 && ZF == 0 为 真 ， 则 跳 转 到 指定 的 内 存 位 置 


其 他 指令 
组 指令 不 能 归 入 前面 介绍 的 任何 一 组 。 表 1-19 列 出 了 这 一 组 的 部 分 指令 。 
表 1-19 其 他 指令 
oR 


对 数组 索引 进行 验证 检查 ， 如 果 检 测 到 超出 边界 的 条 件 ， 处 理 器 会 产生 一 个 异常 

计算 源 操作 数 的 实际 地 址 ， 并 把 结果 保存 到 目标 操作 数 (必须 为 通用 寄存 器 ) 

把 指令 指针 (EIP) 指向 下 一 条 指令 。 其 他 寄存 器 和 标志 都 不 改变 

获取 处 理 器 的 标识 信息 和 功能 信息 。 可 以 使 用 这 条 指令 在 运行 期 确定 某 一 种 SIMD 扩展 是 否 存在 。 
也 可 以 用 来 判断 处 理 器 是 否 支持 某 种 硬件 功能 


1.5 总 结 

本 章 分 析 了 x86-32 平台 的 核心 架构 ， 包 括 数据 类 型 和 内 部 架构 ， 还 介绍 了 编写 应 用 程 
序 所 需 的 常用 x86-32 指令 。 如 果 你 是 第 一 次 接触 x86 平台 的 内 部 架构 或 者 汇编 语言 编程 ， 
那么 可 能 会 感觉 前 面 讲 的 某 些 内 容 有 点 难 懂 。 但 是 不 要 怕 ， 正 如 在 序言 中 所 讲 的 ， 本 书 的 所 


有 章节 要 么 是 用 来 指导 实践 的 ， 要 么 就 是 用 来 动手 学 习 的 。 下 一 章 会 把 注意 力 转向 x86 汇编 | ， 
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语言 编程 的 实战 方面 ， 将 通过 演示 代码 和 具体 的 例子 来 理解 本 章 讨 论 的 概念 。 26 


第 2 章 | 


Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


x86-32 核心 编程 





上 一 章 重点 介绍 的 是 x86-32 平台 的 基本 知识 ， 包 括 数 据 类 型 、 执 行 环境 和 指令 集 。 这 
一 章 我 们 将 把 注意 力 集中 到 x86-32 汇编 语言 编程 。 说 得 更 具体 些 ， 我 们 将 介绍 如 何 使 用 汇 
编 语言 编写 函数 ， 并 在 C++ 程序 中 调用 。 此 外 ， 本 章 还 会 介绍 x86 汇编 语言 的 语法 和 语义 。 
为 了 帮助 大 家 理解 这 一 章 的 理论 性 内 容 ， 本 章 配 备 了 很 多 示例 程序 。 

本 章 的 内 容 是 这 样 组 织 的 。 第 一 节 描 述 如 何 编写 一 个 简单 的 汇编 语言 也 数 。 你 会 学 习 如 
何在 C++ 程序 和 x86 汇编 程序 的 函数 之 间 传 递 参数 和 返回 值 。 我 们 将 顺带 讨论 使 用 x86-32 
指令 时 要 注意 的 一 些 问题 以 及 Visual Studio 开发 工具 的 使 用 方法 。 

第 二 节 讨 论 的 是 x86-32 汇编 语言 编程 的 基本 知识 。 我 们 将 介绍 在 函数 间 传 递 参 数 和 返 
回 值 的 更 多 细节 ， 包 括 函 数 序言 和 结语 。 这 一 节 还 会 回顾 几 个 x86 汇编 语言 编程 的 普遍 话 
题 ， 包 括 内 存 寻 址 模式 、 变 量 的 用 法 以 及 条 件 指令 。 在 汇编 语言 基础 这 一 节 之 后 ， 我 们 将 讨 
论 数组 的 用 法 ， 差 不 多 所 有 应 用 程序 都 会 在 某 种 程度 上 使 用 数组 ， 这 一 节 将 演示 在 汇编 语言 
编程 中 使 用 一 维 数 组 和 二 维 数组 的 技术 。 

很 多 应 用 程序 还 会 用 到 结构 体 来 创建 和 管理 用 户 定 义 的 数据 类 型 。 数 组 之 后 的 一 节 将 演 
示 结 构 体 的 用 法 ,并 探讨 在 C++ 和 汇编 语言 的 函数 之 间 使 用 结构 体 应 注意 的 几 个 问题 。 本 
章 的 最 后 一 节 将 演示 如 何 使 用 x86 的 串 指令 。 这 些 指令 经 常 被 用 来 对 文本 串 进行 操作 ， 但 也 
可 以 用 来 处 理 数 组 的 元 素 。 

需要 说 明 的 是 ， 本 章 中 的 示例 代码 主要 用 来 演示 x86-32 指令 集 的 用 法 以 及 汇编 语言 
程 技术 ， 所 有 代码 力求 直截了当 ， 但 却 不 一 定 是 最 优 的 ， 因 为 理解 优化 过 的 汇编 语言 代码 是 
有 难度 的 ， 尤 其 是 对 初学 者 而 言 。 后 续 章 节 的 示例 代码 会 把 更 多 的 注意 力 放 在 如 何 编写 高 效 
率 的 代码 上 。 第 21 章 和 第 22 章 会 专门 介绍 编写 高 效率 汇编 语言 代码 的 很 多 策略 。 


2.1 开始 

这 一 节 将 分 析 几 个 简单 的 程序 ， 目 的 是 说 明 如 何在 C++ 函数 和 汇编 语言 函数 之 间 传 
递 数据 。 我 们 还 将 介绍 如 何 使 用 常用 的 x86-32 汇编 语言 指令 和 一 些 基 本 的 汇编 器 指示 符 
(assembler directive ) 。 

正如 在 前 言 里 所 说 明 的 ， 本 书 讨论 的 所 有 示例 代码 都 是 使 用 微软 的 Visual C++ 和 宏 汇 
编 器 (MASM) 所 创建 的 ， 这 两 个 工具 都 是 Visual Studio 的 一 部 分 。 在 开始 学 习 本 书 的 第 一 
个 示例 程序 之 前 ， 你 应 该 先 学 习 一 点 使 用 这 些 开发 工具 的 基础 知识 。 

Visual Studio 使 用 所 谓 的 解决 方案 (solution) MAA (project) 来 简化 应 用 程序 开发 。 
一 个 解决 方案 包含 一 个 或 者 多 个 用 以 构建 应 用 程序 的 项 目 。 每 个 项 目 像 容器 一 样 ， 用 以 组 织 
应 用 程序 的 文件 ， 包 括 源 代码 、 资 源 文件 、 图 标 、 位 图 、HTML 和 XML 等 。 通 常 为 应 用 的 
每 个 可 构建 的 部 件 (比如 可 执行 文件 、 动 态 链 接 库 、 静 态 链 接 库 等 ) 创建 一 个 Visual Studio 
项 目 。 你 可 以 通过 双击 解决 方案 文件 ( .sln) 来 启动 Visual Studio 开发 环境 并 加 载 本 书 的 示 
例 程序 。 附 录 A 包含 了 一 个 简单 的 教程 ， 教 你 如 何 创 建 Visual Studio 解决 方案 以 及 创建 包 
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f C++ 文件 和 x86 汇编 语言 文件 的 项 目 。 
2.1.1 第 一 个 汇编 语言 函数 

我 们 要 分 析 的 第 一 个 x86-32 汇编 语言 程序 名 叫 CalcSum。 这 个 示例 程序 演示 的 是 一 些 
基本 的 汇编 语言 概念 ， 包 括 传递 参数 、 使 用 栈 和 返回 值 。 此 外 ， 这 个 例子 还 会 演示 如 何 使 用 
基本 的 汇编 器 指示 符 。 

在 深入 探讨 CalcSum 程序 的 细节 之 前 ， 我 们 先 回顾 一 下 当 一 个 C++ PRÉCISE FH — A 
函数 时 的 过 程 。 像 许多 其 他 编程 语言 一 样 ，C++ 使 用 面向 栈 的 架构 来 支持 参数 传递 和 局 部 
变量 存储 。 在 清单 2-1 P, PRX CalcSumTest 计算 并 返回 三 个 整数 的 和 。 在 从 tmain PRI 
里 调用 这 个 CalcSumTest 函数 之 前 ，a、b Ac 的 值 会 被 从 右 到 左 依次 压 到 栈 上 。 在 进入 到 
CalcSumTest AY, (APER EKRE) 会 初始 化 栈 帧 指针 ， 用 以 协助 访问 _tmain PRU SJ 
栈 上 的 三 个 整数 参数 。 函 数 还 会 根据 需要 分 配 栈 空 间 。 接 下 来 ，CalcSumTest 会 做 求 和 计算 ， 
并 把 结果 复制 到 预先 指定 好 的 返回 值 寄 存 器 中 ， 返 回 前 先 释放 刚才 分 配 的 局 部 栈 空 间 ， 而 后 
返回 到 _tmain。 应 该 说 明 一 下 ， 尽 管 上 面 介绍 的 过 程 在 概念 是 上 精确 的 ， 但 是 如 果 启 用 了 优 
化 选项 ， 那 么 今天 的 C++ 编译 器 很 可 能 对 上 面 提 到 的 栈 操 作 进行 简化 。 


清单 2-1 CalcSumTest.cpp 
#include "stdafx.h" 


int CalcSumTest(int a, int b, int c) 


return a+ b +C; 


int tmain(int argc, TCHAR* argv[]) 


int à = 17, b 11, C = 14; 
int sum - CalcSumTest(a, b, c); 


printf(" a: Xd", a); 
printf(" b: %d\n", b); 
printf(" c:  XdW", c); 
printf(" sum: %d\n", sum); 
return 0; 


) 


前 面 介绍 的 函数 调用 过 程 也 适用 于 从 C++ pea FIL Si er PRÉC. YY 2-2 和 清单 2-3 
分 别 显示 了 CalcSum 程序 的 C++ 代码 和 汇编 语言 代码 。 在 这 个 例子 中 ， 汇 编 语言 函数 被 命 
名 为 CalcSum_。 因 为 CalcSum 是 本 书 的 第 一 个 x86-32 汇编 语言 函数 ， 所 以 有 必要 仔细 地 
看 一 下 清单 2-2 和 清单 2-3。 

清单 2-2 CalcSum.cpp 

#include "stdafx.h" 

extern "C" int CalcSum (int a, int b, int c); 

int tmain(int argc, _TCHAR* argv[]) 

{ 


int a= 17, b= 11, C = 14; 
int sum - CalcSum (a, b, c); 
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printf(" a: Xd", a); 
printf(" b:  XdWn", b); 
printf(" c:  XdW", c); 
printf(" sum: %d\n", sum); 
return 0; 


清单 2-3 CalcSum .asm 


.model flat,c 
.code 


; extern "C" int CalcSum (int a, int b, int c) 
; 描述 : 这 个 函数 演示 了 如 何在 C++ 和 汇编 语言 函数 间 传 递 参数 


; 返回 值 : a + b+ c 

CalcSum proc 

; 初始 化 栈 帧 指针 
push ebp 
mov ebp,esp 


; 加 载 参 数值 
mov eax, [ebp+8] ; eax = 'a' 
mov ecx, [ebp+12] 3 ecx = 'b' 
mov edx, [ebp+16] 3 edx = "G 
; RA 
add eax,ecx 3 eax = 'a' + 'b' 
add eax,edx 3 eax = 'a' + 'b' + 'c' 


; 恢复 父 函 数 的 栈 帧 指针 
pop ebp 
ret 


CalcSum endp 
end 


注意 ”在 本 书 的 示例 代码 中 ， 所 有 汇编 语言 文件 、 函 数 和 全 局 变量 名 都 以 下 划 线 结尾 ， 
以 方便 区 分 。 

CalcSum.cpp 看 起 来 很 直截了当 ， 只 有 几 行 代码 需要 解释 一 下 。#include “ stdafx.h” 
这 一 行 用 来 指定 项 目 相关 的 头 文件 ， 这 个 头 文件 里 面包 含 着 经 常 使 用 的 一 些 系统 项 目的 头 
文件 。 每 当 创 建 一 个 新 的 C++ 控制 台 应 用 项 目 时 ，Visual Studio 就 会 自动 产生 这 个 文件 。 
extern "C" int CalcSum (int a, int b, int c) 这 一 行 是 C++ 的 声明 语句 ， 用 来 定义 汇编 语言 函数 
CalcSum_ 的 参数 和 返回 值 。 它 还 告诉 编译 器 对 CaleSum 函数 使 用 C 风格 的 命名 规范 ， 不 
要 使 用 C++ 的 装饰 名 ( C++ 装饰 名 包含 用 以 支持 重 载 的 额外 字符 )。 剩 下 的 CalcSum.cpp ft 
码 主要 是 使 用 printf 函数 向 标准 控制 台 输 出 信息 。 

CalcSum .asm 的 开头 几 行 是 MASM 指示 符 。MASM 指示 符 用 来 告诉 汇编 器 如 何 执行 
某 些 操作 。.model flat, c 指示 符 告诉 汇编 器 产生 适用 于 平坦 内 存 模型 的 代码 ， 并 使 用 C 风 
格 的 规范 给 公共 符号 命名 。.code 指示 符 用 以 标示 包含 可 执行 代码 的 内 存 块 的 起 点 。 在 本 书 
后 面 的 章节 中 ， 我 们 会 介绍 更 多 的 汇编 指示 符 。 接 下 来 的 几 行 是 注释 ,汇编 器 会 忽略 出 现 
在 分 号 后 的 任何 字符 。 语 句 CalcSum_ proc 代表 一 个 函数 (或 者 过 程 ) 的 开始 。 在 接近 源 
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文件 末尾 的 CalcSum_ endp 语句 用 以 标示 函数 的 结束 。 应 该 说 明 的 是 ，proc 和 endp 语句 
并 不 是 可 执行 的 指令 ， 而 是 用 以 标示 函数 开始 和 结束 的 汇编 融 指 示 符 。 最 末尾 的 end 语句 
是 另 一 个 汇编 器 指示 符 ， 用 来 代表 整个 文件 的 结束 ， 汇 编 器 会 包 略 end 指示 符 之 后 的 任何 
文本 。 
CaleSum 函数 中 的 第 一 条 x86-32 汇编 语言 指令 是 push ebp (向 栈 压 人 一 个 双 字 )。 这 
条 指令 会 把 调用 者 的 EBP 寄存 器 内 容 压 到 栈 上 。 下 一 条 指令 是 mov ebp, esp (Move)， 把 
ESP 的 内 容 复制 到 EBP， 也 就 是 把 EBP 初始 化 为 栈 帧 指针 ， 以 便 访 问 函 数 的 参数 。 图 2-1 
画 出 了 执行 完 mov ebp, esp 指令 后 的 栈 状态 。 保 存 EBP 寄存 器 的 值 和 初始 化 栈 帧 指针 是 函 
数 序言 的 主要 部 分 。 本 章 后 面 会 更 深入 地 讨论 函数 序言 。 
在 初始 化 栈 帧 指针 后 ， 我 们 使 用 了 一 系 
列 mov 指令 将 a、b、c 这 三 个 参数 的 值 分 别 PIE 
加 载 到 寄存 器 EAX、ECX 和 EDX 中 。 每 个 
mov 指令 的 源 操作 数 使 用 了 BaseReg+Disp 


+16 
形式 的 内 存 寻 址 模式 来 引用 栈 上 的 值 (参见 
第 1 章 关 于 内 存 寻 址 模式 的 内 容 )。 把 参数 48 
值 加 载 到 寄存 器 之 后 ， 就 可 以 进行 求 和 操作 +4 





了 。 指 令 add eax, ecx (Add) 对 寄存 器 EAX 低 内 存 地 址 旧 的 EBP —EBP. ESP 
和 ECX (包含 了 a 和 b 的 值 ) 求 和 ， 结 果 放 
在 EAX 寄存 器 中 。 下 一 条 指令 add eax, edx 
把 c 加 到 上 一 步 求 得 的 和 里 ， 并 把 结果 保存 
到 EAX。 

使 用 x86-32 汇编 语言 编写 的 函数 必须 使 用 EAX 寄存 器 来 向 调用 者 返回 32 位 的 整数 
值 。 在 我 们 当前 讨论 的 函数 中 ， 因 为 EAX 已 经 包含 了 正确 的 值 ， 所 以 不 再 需要 任何 额外 
指令 。 指 令 pop ebp (从 栈 上 弹出 数值 ) 用 来 恢复 调用 者 的 EBP 寄存 器 内 容 ， 这 一 行 是 
困 数 结语 代码 的 重要 部 分 。 本 章 后 面 会 更 详细 地 讨论 函数 结语 。 最 后 的 ret 指令 (从 过 程 
返回 ) 把 程序 控制 权 归 还 给 调用 函数 tmain。 输 出 2-1 显示 了 运行 示例 程序 CalcSum 的 





图 2-1 初始 化 栈 帧 指针 后 栈 的 内 容 。 栈 上 数据 的 
fi Ee XE NDS T Aff ds EBP 和 ESP 的 


输出 2-1 示例 程序 CalcSum 


你 可 以 通过 如 下 步骤 用 Visual Studio 观察 源 程序 文件 并 运行 这 个 示例 程序 : 

1. 打开 Windows 的 文件 管理 器 ( File Explorer)， 双 击 如 下 Visual Studio 解决 方案 文件 : 
Chapter02\CalcSum\CalcSum.sIn. 

2. 选择 View > Solution Explorer 打开 Solution Explorer 窗口 。 

3. 在 Solution Explorer 窗口 的 树 控件 中 ， 展 开标 有 CaleSum 的 节点 和 源 文件 。 

4. 双击 CalcSum.cpp 和 CalcSum_.asm 在 编辑 器 中 打开 文件 。 

5. 如 果 想 运行 程序 ， 那 么 选择 DEBUG > Start Without Debugging. 

在 本 章 的 后 续 内 容 中 ， 你 将 学 习 到 使 用 Visual Studio 的 更 多 细节 . 


[32] 


[33] 


2.1.2 ”整数 乘法 和 除法 


我 们 要 分 析 的 下 一 个 示例 程序 叫 mtegerMulDiv。 这 个 程序 演示 的 是 如 何 使 用 imul ( 带 
符号 乘法 ) 和 idiv ( 带 符号 除法 ) 指令 来 对 带 符号 整数 做 乘法 和 除法 运算 。 这 个 例子 还 会 
演示 如 何在 C++ 函数 和 汇编 语言 函数 之 间 使 用 指针 传递 数据 。 你 可 以 在 资源 管理 器 中 双击 
Chapter02\IntegerMulDiv\IntegerMulDiv.sln 文件 启动 Visual Studio 打开 这 个 例子 的 解决 方案 
SCPE a 

清单 2-4 显示 了 IntegerMulDiv.cpp 的 源 代 码 。 靠 近 文件 项 部 的 声明 语句 定义 了 用 以 计 
算 结 果 的 汇编 语言 函数 IntegerMulDiv _， 它 有 五 个 参数 : 两 个 整数 值 和 三 个 用 于 返回 结果 的 
整数 指针 。 这 个 函数 返回 整数 值 用 以 指示 是 否 发 生 了 除 零 操作 。IntegerMulDiv.cpp 的 其 余 代 
公 以 几 种 方式 调用 汇编 语言 函数 IntegerMulDiv_ 对 其 进行 测试 。 


清单 2-4 IntegerMulDiv.cpp 
#include "stdafx.h" 


extern "C" int IntegerMulDiv (int a, int b, int* prod, int* quo, int* rem); 


int tmain(int argc, TCHAR* argv[]) 


{ 
int a = 21, b = 9; 
int prod = 0, quo = O, rem = 0; 
int rc; 
rc = IntegerMulDiv (a, b, &prod, &quo, &rem); 
printf(" Inputi - a: %4d b: %4d\n", a, b); 
printf("Outputi - rc: %4d prod: %4d\n", rc, prod); 
printf(" quo: 44d rem: %4d\n\n", quo, rem); 
a = -29; 
prod = quo = rem = 0; 
rc = IntegerMulDiv (a, b, &prod, &quo, &rem); 
printf(" Input2 - a: %ąd b: %4d\n", a, b); 
printf("Output2 - rc: %4d prod: %4d\n", rc, prod); 
printf(" quo: 44d rem: %4d\n\n", quo, rem); 
b = 0; 
prod = quo = rem = 0; 
rc = IntegerMulDiv (a, b, &prod, &quo, &rem); 
printf(" Input3 - a: %4d b: %4d\n", a, b); 
printf("Output3 - rc: %4d prod: %4d\n", rc, prod); 
printf(" quo: 44d rem: %4d\n\n", quo, rem); 
return 0; 

} 


清单 2-5 包含 了 使 用 汇编 语言 编写 的 IntegerMulDiv 函数 源 代码 。 刚 开始 的 几 行 和 你 在 
上 一 节 学 习 到 的 示例 程序 的 前 几 行 很 相似 ， 其 中 的 汇编 器 指示 符 用 来 定义 内 存 模型 和 代码 块 
的 起 始 位 置 。 函 数 序 言 包含 了 必要 的 指令 用 以 保存 调用 者 的 EBP 寄存 器 和 初始 化 栈 帧 指针 。 
它 还 包含 了 一 条 push ebx 指令 ， 用 以 把 调用 者 的 EBX 寄存 器 保存 到 栈 上 。 根 据 Visual C++ 
中 关于 32 位 应 用 程序 的 调用 约定 ， 被 调用 函数 必须 保持 以 下 寄存 器 的 值 (在 函数 返回 时 仍 
是 原来 的 值 ) : EBX, ESI, EDI 和 EBP。 这 些 寄存 器 被 称 为 非 易 变 (non-volatile) 寄存 器 。 
Sy EM AE RY EAX, ECX 和 EDX 不 需要 在 函数 调用 时 保持 原来 值 。 在 本 章 后 面 的 内 容 中 ， 你 
将 学 习 到 关于 Visual C++ 调用 约定 的 更 多 细节 。 
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IntegerMulDiv .asm 


; extern "C" int IntegerMulDiv (int a, int b, int* prod, int* quo, int* 


- rem); 


; 描述。 这 个 函数 演示 了 imul 和 idiv 指令 


返回 值 : 0 Error ( 除数 是 0) 
1 Success ( 除数 是 0) 


; 计算 : *prod = a * b; 
*quo 


2 
3 
3 
» 
3 
3 
3 *rem 


a/b 
a%b 


non 


IntegerMulDiv_ proc 


; 函数 序言 
push ebp 
mov ebp,esp 
push ebx 


; 确保 除数 不 为 0 
xor eax,eax 
mov ecx, [ebp+8] 
mov edx, [ebp+12] 
or edx,edx 
jz InvalidDivisor 


; 计算 积 并 保存 结果 

imul edx,ecx 
mov ebx, [ebp+16] 
mov [ebx] ,edx 


; 计算 商 和 余数 ， 并 保存 结果 
mov eax,ecx 
cdq 
idiv dword ptr [ebp+12] 


mov ebx, [ebp+20] 
mov [ebx],eax 
mov ebx, [ebp+24] 
mov [ebx],edx 
mov eax,1 


; 函数 结语 
InvalidDivisor: 

pop ebx 

pop ebp 

ret 
IntegerMulDiv endp 

end 


图 2-2 显示 了 执行 push ebx : 


分 别 加 载 到 寄存 器 ECX 和 EDX n. 


指令 后 的 栈 状 态 。 在 执行 完 函 数 序言 后 
接 下 来 是 一 条 or edx, edx ETET 指令 。 这 条 指令 


的 用 法 ， 也 演示 了 指针 的 用 法 


; 设置 错误 返回 码 
;ecx = 'a' 
;edx = 'b' 


i7 ‘b’ AO, BERE 


sede = u^ Sb" 


;ebx = 'prod' 
; 保存 积 
seax = “a” 


; edx:eax 包含 被 除数 


jeax = quo, edx = rem 


;ebx = 'quo' 

; 保存 商 

;ebx = 'rem' 

; 保存 余数 

; 设置 成 功 返回 码 





aegri cus 


EDX 与 它 自己 进行 按 位 或 操作 ， 甚 目的 是 更 新 寄存 器 EFLAGS 中 的 状态 标志 ， E 
EDX 寄存 器 中 的 初始 值 。 对 参数 b 进行 测试 是 为 了 防止 除 以 零 。 紧 接 的 那 条 jz InvalidDivisor 
(Jump if Zero) 指令 是 条 件 跳 转 指 令 ， 仅 当 EFLAGS.ZF == 1 成 立时 才 进 行 跳 转 。 这 条 条 件 
跳 转 指令 的 目标 操作 数 是 指定 跳 转 目 标 (也 就 是 要 执行 的 下 一 条 指令 ) 的 标号 (label， 如 果 
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ES 


$23 


设置 了 零 标 志 )。 在 这 个 示例 程序 中 ， 标 号 InvalidDivisor: 位 于 清单 的 末尾 ， 在 结语 指令 


之 前 

WR b 的 值 不 是 零 ， 那 么 程序 会 继续 执行 imul 
edx, ecx 指令 。 这 条 指令 会 对 EDX 和 ECX 的 内 容 
做 有 符号 乘法 运算 ， 把 结果 截断 为 32 位 ， 并 保存 到 
EDX 寄存 咒 (imul 指令 的 单 目 32 位 操作 数 形式 会 
把 完整 的 四 字 乘 积 保存 到 寄存 顺 对 EDX:EAX 中 )。 
接 下 来 的 指令 mov ebx, [ebp+16] 会 把 指针 prod 加 
载 到 寄存 名 EBX 中 。 之 后 的 mov [ebx], edx 指令 把 

[35] 前 面 计算 出 的 乘积 保存 到 指定 的 内 存单 元 中 。 

IntegerMulDiv 函数 的 下 一 块 代码 会 使 用 带 符 
号 整数 除法 指令 计算 a/b 和 a%b。 在 x86 处 理 器 中 ， 
使 用 32 位 操作 数 的 带 符号 整数 除法 要 求 必须 把 64 
位 的 被 除数 加 载 到 寄存 顺 对 EDX:EAX 中 。 指 令 
cdq ( Convert Doubleword to Quadword) 会 把 EAX 








高 内 存 地 址 








低 内 存 地 址 


图 2-2 执行 push ebx 后 的 栈 内 容 。 图 中 
显示 的 偏 移 相对 于 寄存 器 EBP 





寄存 器 的 值 (包含 参数 a 的 值 ， 前 面 执行 过 mov eax, ecx) 做 符号 扩展 ， 结 果 放 到 EDX:EAX 
寄存 器 对 。 接 下 来 的 指令 idiv dword ptr [ebp+12] 是 进行 有 符号 整数 除法 。 注 意 idiv 指令 仅 
跟随 一 个 源 操作 数 : 32 位 (或 双 字 ) 的 除数 。 寄 存 器 对 EDX:EAX 中 的 内 容 会 被 当 作 被 除数 。 
男 外 要 说 明 的 是 ，idiv 指令 还 可 以 用 来 做 8 位 和 16 位 有 符号 整数 除法 ， 这 也 是 本 例 中 使 用 
dword ptr 加 以 限定 的 原因 。 在 执行 完 idiv 指令 后 ， 寄 存 器 EAX 和 EDX 中 分 别 包含 的 是 商 
和 余数 。 这 些 值 会 被 保存 到 指针 quo 和 rem 指定 的 内 存单 元 中 。 

IntegerMulDiv 函数 的 最 后 一 块 代 码 是 函数 的 结语 。 在 执行 ret 指令 之 前 ， 使 用 pop 指 
令 恢复 调用 者 的 EBX 和 EBP。 如 果 某 个 汇编 语言 函数 没 能 恰当 地 恢复 非 易 变 寄存 器 的 值 ， 
那么 很 可 能 引起 程序 崩 演 。 如 果 ESP 指向 栈 上 的 未 移 除 数据 项 或 者 包含 了 无 效 值 ， 那 么 基 
本 上 可 以 肯定 会 发 生 崩 演 。 输 出 2-2 是 执行 IntergerMulDiv 的 结果 。 


输出 2-2 示例 程序 IntegerMulDiv 





Input1 - a: 21 b: 9 
Outputi - rc: 1 prod: 189 
quo: 2 rem: 3 

Input2 - a: -29 b: 9 
Output2 - rc: 1 prod: -261 
quo: -3 rem: -2 

Input3 - a: -29 b: 0 
Output3 - rc: O prod: 0 
quo: 0 rem: 0 





2.2 x86-32 编程 基础 


上 一 六 的 示例 代码 演示 了 x86-32 汇编 语言 编程 的 概况 。 这 一 节 将 更 系统 地 介绍 x86-32 
汇编 语言 编程 的 基础 知识 。 首 先 我 们 会 更 详细 地 介绍 x86-32 汇编 语言 函数 被 C++ 调用 时 所 
必须 遵循 的 调用 约定 。 接 下 来 演示 如 何 使 用 常用 的 内 存 寻 址 模式 。 青 下 面 的 例子 会 介绍 对 不 
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同 长 度 的 操作 数 做 整数 加 法 。 最 后 一 个 例子 的 学 习 目 标 是 条 件 码 和 条 件 指令 。 本 节 标 题 中 的 
“基础 ”二 字 暗 示 着 这 一 节 内 容 的 重要 性 。 这 些 内 容 是 有 志 于 学 习 x86 汇编 语言 编程 的 开发 
者 所 应 该 深入 理解 的 关键 知识 。 


2.2.1 调用 约定 

当 使 用 C++ 编写 函数 时 ， 程 序 员 经 常 声明 局 部 变量 来 保存 临时 数据 或 者 中 间 结 果 。 例 
如 ， 在 清单 2-6 P, PRU LocalVars 包含 三 个 局 部 变量 : vall 、val2 和 val3。 如 果 C++ 编译 
器 决定 使 用 栈 上 的 内 存 来 容纳 这 些 变量 或 其 他 临时 变量 ,那么 分 配 和 释放 的 代码 一 般 放 在 函 
数 的 序言 和 结语 中 。 汇 编 语 言 函数 也 可 以 使 用 同样 的 技术 来 分 配 栈 上 的 空间 ， 供 局 部 变量 使 
用 或 者 满足 其 他 用 途 。 


清单 2-6 LocalVars.cpp 
double LocalVars(int a, int b) 


{ 
int vali = a * a; 
int val2 = b * b; 
double val3 = sqrt(val1 + val2); 
return val3; 
} 


我 们 要 分 析 的 下 一 个 示例 程序 叫 CallingConvention， 它 有 两 个 目的 。 首 先 ， 它 演示 了 
C++ 调用 约定 的 额外 细节 ， 包 括 在 栈 上 分 配 局 部 变量 。 其 次 ， 这 个 程序 演示 了 其 他 几 个 常 
用 x86-32 汇编 语言 指令 的 用 法 。 清 单 2-7 和 清单 2-8 分 别 展 示 了 C++ 的 CallingConvention. 
cpp 和 汇编 语言 的 CallingConvention .asm 的 代码 。 对 应 的 Visual Studio 的 解决 方案 文件 是 
Chapter02\CallingConvention\CallingConvention.sIn, 


清单 2-7 CallingConvention.cpp 
#include "stdafx.h" 


extern "C" void CalculateSums (int a, int b, int c, int* s1, int* s2, int* 
Se 53); 


int tmain(int argc, _TCHAR* argv[]) 


{ 
int a= 3, b= 5, ¢ = 85 
int sia, s2a, s3a; 


CalculateSums (a, b, c, &s1a, &s2a, &s3a); 


// 再 次 做 求 和 计算 ， 以 便 验 证 汇编 语言 函数 CalculateSums_() 的 结果 
int sib-a«b«c; 

int sb=a*a+b*b+c*c; 

int s3b=a*ta*tatb*b*b+c*c*c; 

printf("Input: a: %4d b:  *X4d c: %4d\n", a, b, c); 
printf("Output: sia: %4d s2a: %4d s3a: %4d\n", s1a, s2a, s3a); 
printf(" sib: %4d s2b: %4d s3b: %4d\n", sib, s2b, s3b); 


return 0; 
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清单 2-8 CallingConvention .asm 


.model flat,c 
.code 


; extern "C" void CalculateSums (int a, int b, int c, int* s1, int* s2, int* 
7053); 

3 

; 描述 : 这 个 函数 演示 完整 的 汇编 语言 序言 和 结语 

H 


返回 值 : None 


3 
5 
3 1H: *s =a+bec 
; 
5 


*s2=a*at+b* b+e*c 
*s3-a*a*aecb*b*b«c*c*c 


CalculateSums ^ proc 


; 函数 序言 
push ebp 
mov ebp,esp 
sub esp,12 ;分 配 局 部 存储 空间 
push ebx 
push esi 
push edi 


; 加 载 参 数值 
mov eax, [ebp+8] ;eax = 'a 
mov ebx, [ebp+12] ;ebx = 'b' 
mov ecx, [ebp+16] ;ecx = 'c 
mov edx, [ebp«20] ;edx = 
mov esi, [ebp+24] ;esi = 
mov edi, [ebp+28] jedi = 's3' 


3 1H 's1' 
mov [ebp-12],eax 
add [ebp-12],ebx 
add [ebp-12],ecx ;最 终 的 's1' 结果 


5 Xp. s2" 
imul eax,eax 
imul ebx,ebx 
imul ecx,ecx 
mov [ebp-8],eax 
add [ebp-8],ebx 
add [ebp-8] ,ecx ;最 终 的 's2' 结果 


; 计算 's3， 
imul eax, [ebp48] 
imul ebx, [ebp+12] 
imul ecx, [ebp+16] 
mov [ebp-4] ,eax 
add [ebp-4],ebx 
add [ebp-4],ecx ;最 终 的 's3' 


m 
» 


; 保存 's1'、's2' 和 's3' 
mov eax, [ebp-12] 
mov [edx],eax ; RIE 's1' 
mov eax, [ebp-8] 
mov [esi],eax > 保存 ?52" 
mov eax, [ebp-4] 
mov [edi],eax ; 保存 's3， 


He 2 


x86-32 SAFE 27 





; 函数 结语 
pop edi 
pop esi 
pop ebx 
mov esp,ebp ;释放 局 部 存储 空间 
pop ebp 
ret 
CalculateSums ^ endp 
end 


可 以 看 到 ， 在 清单 2-7 中 tmain 调用 了 一 个 名 为 CalculateSums_ 的 函数 。CalculateSums 


函数 会 对 传人 的 三 个 整数 参数 求 和 。 清 单 2-8 包含 了 CalculateSums_ 困 数 的 汇编 语言 代码 ， 
其 开头 是 大 家 熟悉 的 栈 帧 指针 初始 化 以 及 把 非 易 变 寄存 器 保存 到 栈 上 的 指令 。 在 保存 非 易 变 
寄存 器 之 前 ， 执 行 了 一 条 sub esp, I2(Substract) 指令 。 这 条 指令 会 把 ESP 寄存 器 的 内 容 减 去 
12， 这 相当 于 在 栈 上 分 配 了 12 字 节 的 局 部 (而 且 私 











H) 存储 空间 ， 供 这 个 函数 使 用 。 使 用 sub 指令 而 APO E hs 
不 是 add 指令 的 原因 是 x86 的 栈 是 向 低地 址 方向 生 s 
长 的 。 这 种 从 栈 上 分 配 局 部 存储 空间 的 做 法 反映 了 ide 
函数 序言 中 mov ebp, esp 指令 的 另 一 个 作用 。 当 使 i un 
用 EBP 寄存 器 来 访问 栈 上 的 数据 时 ， 回 正 的 方 回 偏 本 
移 就 可 以 引用 参数 ， 向 负 的 方向 偏 移 就 可 以 引用 局 | GERA | m 
部 变量 ， 如 图 2-3 所 示 。 uu 
在 函数 序言 代码 之 后 ， 参 数 a、b 和 c 被 分 别 加 ee p 
载 到 寄存 器 EAX、EBX 和 ECX 中 。 计 算 sl 的 过 d 
程 演示 了 如 何在 加 法 指令 中 使 用 内 存 作为 目标 操作 di 
数 ， 而 不 是 寄存 器 。 需 要 说 明 的 是 ， 在 这 个 特定 的 
例子 中 ， 使 用 内 存 作 目 标 操作 数 的 效率 是 不 高 的 ; 
其 实 可 以 使 用 寄存 器 操作 数 来 轻松 计算 出 slo AE 低 内 存 地 址 —ESP 


采用 内 存 作 操作 数 的 目的 是 为 了 演示 栈 上 局 部 变量 
的 用 法 。 

接 下 来 的 代码 是 使 用 双 目 形式 的 imul 指令 来 计算 s2 和 s3。 注 意 ， 计 算 s3 的 imul 指令 
使 用 栈 上 的 原始 值 来 作 源 操作 数 ， 因 为 寄存 器 EAX、EBX 和 ECX 不 再 包含 a、b RI c 的 原 
始 值 了 。 在 计算 好 所 需 的 结果 后 ， 接 下 来 的 代码 把 sS1、s2 和 s3 的 值 从 它们 在 栈 上 的 临时 位 
置 复制 到 调用 者 通过 指针 指定 的 内 存 位 置 。 

CalculateSums_ 的 最 后 部 分 是 师 数 结语 ， 使 用 pop 指令 来 恢复 非 易 变 寄存 器 EBX, ESI 
Al EDI 的 值 。 其 中 还 有 一 条 mov esp, ebp 指令 ， 其 作用 是 释放 前 面 分 配 的 局 部 存储 空间 ， 并 
在 执行 ret 指令 前 把 ESP 寄存 器 恢复 成 正确 的 值 。 执 行 这 个 CallingConvention 示例 程序 的 
结果 如 输出 2-3 所 示 。 


图 2-3 包含 局 部 存储 空间 的 栈 


输出 2-3 示例 程序 CallingConvention 
Input: a: 3 b: 5 c: 8 
Output: sla: 16 s2a: 98 s3a: 664 
sib: 16 s2b: 98 s3b: 664 


CalculateSums_ 中 的 函数 序言 和 结语 是 很 典型 的 ， 代 表 着 从 Visual C++ 函数 中 调用 汇 


28 g2* 


编 语言 函数 时 所 必须 遵守 的 调用 约定 。 在 这 一 章 的 后 面 ， 我 们 还 会 介绍 一 些 与 64 位 数值 和 
C++ 结构 体 有 关 的 调用 约定 。 第 4 章 会 讨论 与 浮 点 数 相 关 的 调用 约定 。 附 录 B 对 x86-32 程 
序 使 用 的 Visual C++ 调用 约定 做 了 完整 的 归纳 。 

注意 ”本章 讨 论 的 汇编 语言 调用 约定 与 其 他 操作 系统 和 高 级 语言 中 的 约定 可 能 是 不 同 
的 。 如 果 你 打算 通过 阅读 本 书 学 习 x86 汇编 语言 编程 ， 并 打算 在 另 一 种 不 同 的 执行 环境 下 使 
用 ， 那 么 你 应 该 仔细 查询 目标 平台 的 调用 约定 。 

最 后 要 说 明 的 是 ， 当 编写 汇编 语言 的 函数 序言 和 结语 时 ， 一 般 只 应 该 包含 这 个 丽 数 真正 
需要 的 那些 指令 。 比 如 ， 如 果 一 个 函数 根本 不 使 用 寄存 右 EBX 的 值 ， 那 么 就 不 必 在 函数 序 
言 和 结语 中 保存 和 恢复 它 的 值 了 。 类 似 地 ， 一 个 没有 参数 的 函数 可 以 不 必 初 始 化 栈 帧 指针 。 
如 果 省 上 略 函 数 序言 和 结语 ， 可 能 出 现 问题 的 男 一 种 情况 是 ， 一 个 汇编 语言 函数 调用 男 一 个 没 
有 保存 非 易 变 寄存 器 的 汇编 语言 函数 。 对 于 这 种 情况 ,被 调用 函数 应 该 确保 非 易 变 寄存 器 都 
被 恰当 地 保存 和 恢复 了 。 


2.2.2 ”内 存 寻 址 模式 


在 第 1 章 中 ， 我 们 介绍 了 x86 指令 集 支 持 很 多 种 寻 址 模式 来 引用 内 存 中 的 操作 数 。 在 这 
一 节 ， 我 们 将 通过 一 个 很 小 的 汇编 程序 实例 来 演示 其 中 的 几 种 。 你 还 会 学 习 到 如 何在 汇编 代 
码 中 定义 字典 表 ， 以 及 如 何 定义 C++ 函数 中 也 可 以 访问 到 的 全 局 变量 。 这 个 示例 程序 的 名 
字 叫 MemoryAddressing。 清 单 2-9 和 清单 2-10 分 别 包含 了 源 文件 MemoryAddressing.cpp 和 
MemoryAddressing .asm 的 内 容 。 这 个 示例 程序 的 Visual Studio 方案 文件 路 径 为 Chapter02\ 
MemoryAddressing\MemoryAddressing.sln. 


清单 2-9 MemoryAddressing.cpp 





#include "stdafx.h" 


extern "C" int NumFibVals ; 
extern "C" int MemoryAddressing (int i, int* v1, int* v2, int* v3, int* v4); 


int tmain(int argc, TCHAR* argv[]) 
for (int i - -1; i « NumFibVals + 1; i++) 


int vi = -1, v2 = -1, v3 = -1, v4 = -1; 
int rc = MemoryAddressing (i, &v1, &v2, &v3, &v4); 


printf("i: %2d rc: %2d - ", i, rc); 


printf("v1: %5d v2: %5d v3: %5d v4: %5d\n", v1, v2, v3, v4); 
) 


return 0; 


清单 2-10 MemoryAddressing .asm 
.model flat,c 


; 简单 查找 表 (. const 数据 段 只 读 ) 
.const 


FibVals dWord 0, Ws 1, 2, 3. 9, 8, 13 
dword 21, 34, 55, 89, 144, 233, 377, 610 
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NumFibVals dword ($ - FibVals) / sizeof dword 
public NumFibVals 


; extern "C" int MemoryAddressing (int i, int* v1, int* v2, int* v3, int* 
= v4); 


描述 : 这 个 函数 演示 了 用 于 访问 内 存 中 操作 数 的 多 种 寻 址 模式 


wee vs vs us vs 


返回 值 : 0 = error( 无 效 的 表 索 引 ) 
1 = success 
.code 
MemoryAddressing proc 
push ebp 
mov ebp,esp 
push ebx 
push esi 
push edi 
; 确保 'i' 有 效 
xor eax,eax 
mov ecx, [ebp48] jecx = i 
cmp ecx,0 
jl InvalidIndex ; 若 < 0 则 跳 转 
cmp ecx, [NumFibVals ] 
jge InvalidIndex ; 若 »-NumFibVals 则 跳 转 
; 示例 1 一 基 址 寄存 器 
mov ebx,offset FibVals ;ebx - FibVals 
mov esi, [ebp+8] sesi = i 
shl esi,2 jesi = i * 4 
add ebx,esi ;ebx = FibVals + i * 4 
mov eax, [ebx] ;加 载 表 值 
mov edi,[ebp+12] 
mov [edi],eax ;保存 到 "v1' 
; 示例 2 一 基 址 寄存 器 + 偏 移 量 
; esi 用 作 基 址 寄存 器 
mov esi, [ebp+8] jesi = i 
shl esi,2 jesi =i*4 
mov eax, [esi+FibVals] ;加 载 表 值 
mov edi, [ebp+16] 
mov [edi],eax ;保存 到 "v2" 
; 示例 3 一 基 址 寄存 器 + 索引 寄存 器 
mov ebx,offset FibVals ;ebx = FibVals 
mov esi, [ebp+8] jesi = i 
shl esi,2 jesi = i * 4 
mov eax, [ebx«esi] ;加 载 表 值 
mov edi, [ebp+20] 
mov [edi] ,eax ;保存 到 'v3' 
; 示例 4 一 基 址 寄存 器 + 索引 寄存 器 * 比例 因子 
mov ebx,offset FibVals ;ebx = FibVals 
mov esi, [ebp+8] jesi = i 
mov eax, [ebx«esi*4] ;加 载 表 值 
mov edi,[ebp+24] 
mov [edi],eax ;保存 到 'v4' 
mov eax,1 ;设置 成 功 返 回 码 
InvalidIndex: 


pop edi 


E 
SN 
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pop esi 
pop ebx 


MemoryAddressing  endp 
end 


我 们 先 分 析 名 为 MemoryOperands 的 汇编 语言 函数 。 在 这 个 函数 中 ， 参 数 i 的 作用 是 
作为 包含 整数 常量 的 数组 (或 者 称 为 查找 表 (lookup table)) 的 索引 ， 四 个 指针 变量 用 来 保 
存 从 字典 表 中 使 用 不 同 寻 址 模式 读 到 的 值 。 靠 近 清 单 2-10 顶部 的 地 方 有 一 个 .const 指示 符 ， 
它 的 作用 是 定义 包含 只 读数 据 的 内 存 块 。 紧 跟着 const 指示 符 定义 的 就 是 名 为 FibVals 的 字 
典 表 。 这 个 表 包 含 16 个 双 字 整数 ; 文字 dword 也 是 一 个 汇编 器 指示 符 ， 用 来 分 配 存储 空间 ， 
并 且 可 以 选择 性 地 初始 化 双 字 值 (也 可 以 使 用 dd， 它 是 dword 的 简写 )。 

NumFibVals dword ($ - FibVals) / sizeof dword 这 一 行为 一 个 双 字 变量 分 配 存储 空间 并 
把 它 初始 化 为 字典 表 FibVals 中 包含 的 双 字 元 素 的 个 数 。 其 中 的 $ 字符 是 一 个 汇编 器 符号 ， 
代表 的 是 位 置 计 数 吉 (location counter) (或 基于 当前 内 存 块 的 偏 移 ) 的 当前 值 。 从 $ 减 去 
FibVals 的 偏 移 得 到 的 是 以 字 节 为 单位 的 字典 表 大 小 ， 将 其 除 以 每 个 双 字 数据 的 字 节 数 便 得 
到 了 正确 的 元 素 个 数 。.const 节 的 几 条 语句 与 如 下 C++ 语言 中 常用 的 定义 和 初始 化 数组 中 元 
素 个 数 的 变量 的 代码 是 等 价 的 。 

int Values[] = (10, 20, 30, 40, 50] 

int NumValues - sizeof(Values) / sizeof(int); 

.const 节 的 最 后 一 行 把 NumFibVals_ 声明 为 公共 符号 ， 以 便 在 tmain pe Ly UA 
FE. 

下 面 我 们 来 看 一 下 MemoryAddressing PARMAR A., ARROW ee 
参数 i 的 合理 性 ， 因 为 它 会 被 用 作 字 和 典 表 FibVals 的 索引 。 指 令 emp ecx, 0 (比较 两 个 操作 
数 ) JE ECX 寄存 器 (包含 i) 和 立即 数 0 做 比较 。 处 理 需 通过 从 目标 操作 数 中 减 去 源 操作 数 
来 执行 比较 动作 ， 并 根据 相 减 的 结果 设置 状态 标志 (结果 并 不 保存 到 目标 操作 数 )。 如 果 条 
ft ecx < 0 为 直 ， 那 么 程序 会 转移 到 jl (Jump if Less， 小 于 则 跳 转 ) 指令 所 指定 的 位 置 。 接 
下 来 使 用 了 类 似 的 几 条 指令 来 判断 i 的 值 是 否 太 大 。 对 于 这 种 情况 ，cmp ecx, [NumFibVals ] 
指令 把 ECX 和 字典 表 的 元 素 个 数 做 比较 。 如 果 ecx >= [NumFibVals], JI Z FU ERE SIR 
4 jge (Jum if Greater or Equal， 大 于 等 于 则 跳 转 ) 所 指定 的 目标 位 置 。 

MemoryAddressing 也 数 的 其 余 指 令 演 示 了 如 何 使 用 不 同 的 内 存 寻 址 模式 来 访问 字典 
表 。 第 一 个 例子 使 用 一 个 单一 的 基 址 寄存 器 来 从 表 中 读 取 一 项 。 为 了 只 使 用 一 个 基 址 寄存 
at. PROF TAGES i 个 表 元 素 的 地 址 ， 这 是 通过 把 FibVals 的 偏 移 (起 始 地 址 ) 与 i* 4 
相 加 做 到 的 。 指 令 mov ebx, offset FibVals 把 字典 表 的 起 始 地 址 加 载 到 EBX 寄存 器 。 然 后 把 
i 的 值 加 载 到 ESI 寄存 器 。 紧 跟 的 shl esi, 2 (逻辑 左 向 移 位 ) 指令 计算 出 第 i 个 元 素 相 对 于 字 
典 表 开 始 的 偏 移 。add ebx, esi 指令 计算 最 后 的 地 址 。 一 旦 准备 好 元 素 的 地 址 ， 就 可 以 使 用 
mov eax, [ebx] 指令 将 其 读 出 来 ， 再 保存 到 参数 v1 所 指定 的 内 存 位 置 。 

第 二 个 例子 演示 的 是 使 用 BaseReg+Disp 内 存 寻 址 模式 来 读 取 表 项 。 与 上 一 个 例子 类 
似 ， 第 i 个 表 元 素 的 偏 移 值 (相对 于 表 的 起 始 地址 ) 是 通过 shl esi, 2 指令 计算 出 来 的 。 接 下 
来 使 用 mov eax, [esi+FibVals] 指令 来 把 正确 的 表 项 加 载 到 EAX 寄存 器 中 。 在 这 个 例子 中 ， 
处 理 吉 会 通过 把 ESI( 基 址 寄存 器 ) 的 内 容 与 Fibvals Cfi £e) 相 加 得 到 最 终 的 有 效 地 址 。 
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第 三 个 例子 使 用 BaseRegtIndexReg 内 存 寻 址 模式 来 读 取 表 项 。 这 个 例子 与 第 一 个 例 
子 类 似 ， 不 过 是 处 理 器 在 执行 mov eax, [ebx+esi] 指令 时 来 计算 最 终 的 有 效 地 址 。 第 四 个 
也 是 最 后 一 个 例子 演示 的 是 使 用 BaseReg+IndexReg*ScaleFactor 模式 来 寻 址 。 在 这 个 例子 
H, FibVals 的 偏 移 和 i 的 值 被 分 别 加 载 到 EBX 寄存 器 和 ESI 寄 存 器 。 然 后 使 用 mov eax, 
[ebx+esi*4] 指令 来 加 载 正 确 的 表 项 到 EAX 寄存 器 中 。 

文件 MemoryAddressing.cpp (清单 2-10 ) 中 的 主要 代码 是 一 个 简单 的 循环 ， 反 复 调 
用 MemoryOperands_ 函 数 ， 其 中 包含 使 用 无 效 的 索引 值 做 调用 。 注意 在 循环 中 使 用 了 
NumFibVals 变量， 它 是 在 汇编 语言 文件 MemoryOperands_.asm 中 定义 的 公共 符号 。 输 出 2-4 
是 执行 这 个 示例 程序 的 结果 。 


输出 2-4 示例 程序 MemoryAddressing 


13 <1 wes G= Ws -1 v2: -1 v3: -1 v4: -1 
i; 0 rc: 1 = vi: 0 v2: 0 v3: 0 v4: 0 
i: vt ee 1 vi 1 v2: 1 v3: 1 v4: 1 
i; 2 xc: 1d = vi: 1 v2: 1 v3: 1 v4: 1 
i: 3 rc: 1- vid: 2 v2: 2 v3: 2 v4: 2 
ti «4 feo X wa: 3 v2: 3 v3: 3 v4: 3 
i: 5 rc: 4 - vd: 5 v2: 5 v3: 5 v4: 5 
i: 6 rez 1 - vi: 8 v2: 8 v3: 8 v4: 8 
is T Ger d wi 13 v2: 13 v3: 13 v4: 13 
ir $$ tfc? 4 wi: 21 v2: 21 v3: 21 v4: 21 
it g fc: £= yis 34 v2: 34 v3: 34 v4: 34 
i: 10 zc: d = vt 55 v2: 55 v3: 55 v4: 55 
i; 44 xci 1 = vas 89 v2: 89 v3: 89 v4: 89 
ii 12 res 1 = v1: 144 v2: 144 v3: 144 v4: 144 
is 43 yoo 4 = vd: 233 v2: 233 v3: 233 v4: 233 
i: 44 rc: 1 - vi: 377 v2: 377 v3: 377 v4: 377 
i: 15 rc: 1- vi: 610 v2: 610 v3: 610 v4: 610 
ls 46 Yes Q0 = vit: -1 v2: -1 v3: -1 v4: -1 


既然 x86 处 理 器 中 支持 多 种 寻 址 模式 ,那么 你 可 能 想 知道 应 该 尽 可 能 使 用 哪 种 模式 。 这 
个 问题 的 答案 与 多 个 因素 有 关 ， 包 括 寄存 器 的 可 用 性 、 指 令 (或 者 指令 序列 ) 的 预计 执行 次 
数 、 指 令 的 顺序 以 及 内 存 空间 和 执行 时 间 的 平衡 等 。 还 需要 考虑 一 些 硬件 特征 ， 比 如 处 理 器 
的 微 架构 和 高 速 缓 存 的 大 小 。 

当 编 写 x86 汇编 语言 函数 时 ,一 个 指导 原则 是 使 用 简单 (一 个 寄存 器 或 者 偏 移 ) 的 指令 
形式 来 引用 内 存 中 的 操作 数 ， 而 不 是 复杂 的 形式 (多 个 寄存 器 )。 这 种 方法 的 不 足 是 往往 需 
要 程序 员 编 写 比 较 多 的 指令 ， 可 能 需要 占用 较 多 的 代码 空间 。 简 单 形式 可 能 带 来 的 另 一 个 优 
点 是 不 需要 额外 指令 在 栈 中 保存 非 易 变 寄存 器 。 第 21 和 22 章 将 详细 讨论 影响 汇编 语言 程序 
效率 的 各 种 问题 。 


2.2.3 整数 加 法 


Visual C++ 支持 标准 的 C++ 基础 类 型 ， 比 如 char, short, int, long long。 这 些 刚 好 
与 x86 的 基础 类 型 byte、word doubleword 和 quadword 一 一 对 应 。 这 一 节 的 示例 程序 将 
演示 对 不 同 大 小 的 整数 做 加 法 。 你 还 会 学 习 到 如 何在 汇编 语言 函数 中 使 用 C++ 文件 中 定义 
的 全 局 变量 以 及 一 些 常用 的 x86 指令 。 这 一 节 的 Visual Studio 解决 方案 文件 叫 Chapter02\ 
IntegerAddition\IntegerAddition.sln， 清 单 2-11 和 清单 2-12 列 出 了 源 程序 文件 的 内 容 。 
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清单 2-11 IntegerAddition.cpp 


#include "stdafx.h" 


extern "C" char GlChar = 10; 

extern "C" short GlShort - 20; 

extern "C" int GlInt - 30; 

extern "C" long long GlLongLong = Ox000000000FFFFFFFE; 

extern "C" void IntegerAddition (char a, short b, int c, long long d); 


int tmain(int argc, _TCHAR* argv[]) 


{ 
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printf("Before GlChar: %d\n", GlChar); 
printf(" GlShort: %d\n", GlShort); 
printf(" GlInt: %d\n", GlInt); 
printf(" GlLongLong: %lld\n", GlLongLong) ; 


printf("\n"); 


IntegerAddition (3, 5, -37, 11); 


printf("After GlChar: %d\n", GlChar); 
printf(" GlShort: %d\n", GlShort); 
printf(" GlInt: %d\n", GlInt); 
printf(" GlLongLong: XlldWn", GlLongLong); 
return 0; 


i85 2-12 IntegerAddition_.asm 
.model flat,c 
IntegerAddition.cpp 中 有 以 下 定义 : 
extern GlChar:byte 
extern GlShort:word 
extern GlInt:dword 
extern GlLongLong:qword 
extern "C" void IntegerTypes (char a, short b, int c, long long d); 
描述 : 本 函数 演示 了 如 何 对 不 同 大 小 的 整数 做 加 法 操作 
返回 值 : 无 


.code 


IntegerAddition proc 


3 


v. 


- 


we 


函数 序言 
push ebp 
mov ebp,esp 


计算 GlChar += a 
mov al, [ebp+8] 
add [GlChar],al 


计算 Glshort += b, iXX 'b' 在 栈 上 的 偏 移 
mov ax, [ebp+12] 
add [GlShort],ax 


计算 GlInt += c, iEX''c' 在 栈 上 的 偏 移 
mov eax, [ebp+16] 
add [GlInt],eax 


B 


kh 
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; 计算 GlLongLong += d, 注意 dword ptr 操作 符 和 adc 的 用 法 
mov eax, [ebp+20] 
mov edx, [ebp+24] 
add dword ptr [GlLongLong],eax 
adc dword ptr [GlLongLong+4],edx 


; 函数 结语 
pop ebp 
ret 
IntegerAddition endp 
end 


这 个 示例 程序 的 C++ 部 分 定义 了 四 个 全 局 变量 ， 都 是 带 符号 整数 ， 但 基础 类 型 各 
异 。 注 意 ， 每 个 变量 的 定义 中 都 包含 了 标志 “C”， 这 是 告诉 编译 器 产生 C 风 格 的 符号 
供 链接 器 使 用 ， 不 要 产生 C++ 风格 装饰 过 的 符号 。C++ 文 件 中 包含 了 对 汇编 语言 函数 
IntegerAddition 的 声明 。 这 个 函数 会 对 四 个 全 局 变量 做 简单 的 整数 加 法 。 

靠近 IntegerAddition .asm 顶部 的 是 四 条 extern 语句 。 与 C++ 中 的 对 应 部 分 类 似 ，extern 
指示 符 告诉 汇编 器 这 些 名 字 的 变量 是 定义 在 当前 文件 范围 之 外 的 。 每 个 extern 指示 符 还 包含 
了 变量 的 基本 类 型 。 指 示 符 extern 中 还 可 以 包含 语言 类 型 ， 来 覆盖 model flat, c 指示 符 中 指 
定 的 默认 类 型 。 在 本 章 后 面 的 内 容 中 ， 你 会 学 习 到 如 何 使 用 extern 指示 符 来 引用 外 部 函数 。 

在 函数 序言 之 后 , IntegerAdditions_ 把 参数 a 加 载 到 寄存 器 AL， 然 后 使 用 add [GlChar], 
al 指令 计算 GlChar += a。 接 下 来 使 用 类 似 的 形式 来 计算 GlShort += b， 其 中 的 寄存 器 AX 是 
重要 的 差异 ; 参数 b 在 栈 上 的 偏 移 是 +12， 而 不 
是 你 可 能 以 为 的 9， 原 因 是 Visual C++ 在 压 栈 时 ”高 内 存 地 址 





把 8 位 和 16 位 的 数值 扩展 到 32 位 ， 如 图 2-4 所 
示 。 这 样 可 以 确保 栈 帧 指针 寄存 器 ESP 总 是 可 以 EEE 
按 32 位 边界 做 内 存 对 齐 。 E | 

接 下 来 使 用 一 条 add [GlInt], eax 指令 来 计算 à Je) 
Glint += c。 参 数 c 在 栈 上 的 偏 移 是 +16， 它 比 b 





的 偏 移 大 4 字 节 ， 而 不 是 大 2 字 节 。 最 后 的 计算 低 内 存 地 址 
GlLongLong+=d fE H] 32 位 加 法 指令 进行 。 指 令 图 2-4 函数 IntegerAdditions_ 的 栈 参 数 布 局 
add dword ptr [GlLongLong], eax 用 来 累加 低地 址 

的 双 字 ，adc dword ptr [GlLongLong+4], edx ( Add With Carry， 带 进位 加 ) 用 来 完成 64 位 加 
法 。 这 里 使 用 两 条 加 法 指令 的 原因 是 x86-32 模式 不 支持 用 64 位 操作 数 做 加 法 。 指 令 add 和 
adc 包含 了 dword ptr 运算 符 ， 因 为 GlLongLong 变量 的 声明 类 型 是 四 字 ( quadword)。 执 行 
这 个 IntegerAddition 程序 的 结果 见 输出 2-5。 


输出 2-5 示例 程序 IntegerAddition 


Before GlChar: 10 
GlShort: 20 
GlInt: 30 
GlLongLong: 4294967294 
After GlChar: 13 
GlShort: 25 
GlInt: eJ 


GlLongLong: 4294967305 
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2.2.4 条 件 码 


这 一 节 的 最 后 一 个 示例 程序 演示 如 何 使 用 x86 的 条 件 指 令 ， 包 括 jec .cmovcc(Conditional 
Move， 条 件 移动 ) 和 setcc (Set Byte on Condition， 根 据 条 件 设置 字 节 )。 条 件 指令 的 执行 
有 很 多 不 确定 性 ， 依 赖 于 它 指定 的 条 件 码 和 第 1 章 讨论 的 状态 标志 。 你 已 经 看 过 几 个 条 件 
转移 指令 的 例子 。 困 数 IntegerMulDiv (清单 2-5 ) 使 用 jz 指令 来 预防 可 能 的 除 零 错 误 。 TE 
函数 MemoryAddressingModes (清单 2-10) 中 ，cmp 指令 后 的 1 和 jge 指令 用 来 验证 表 
索引 。 这 一 节 的 示例 程序 名 字 叫 ConditionCodes, Viusal Studio 方 案 文件 名 为 Chapter02\ 
ConditionCodes\ConditionCodes.sln。 清 单 2-13 和 清单 2-14 分 别 列 出 了 ConditionCodes.cpp 和 
ConditionCodes .asm 的 源 代码 。 


清单 2-13 ConditionCodes.cpp 





#include "stdafx.h" 


extern "C" int SignedMinA (int a, int b, int c); 
extern "C" int SignedMaxA (int a, int b, int c); 
extern "C" int SignedMinB (int a, int b, int c); 
extern "C" int SignedMaxB (int a, int b, int c); 


int tmain(int argc, _TCHAR* argv[]) 
{ 

int a, b, 6j 

int smin a, smax a; 

int smin b, smax b; 


// SignedMin 示例 

a= 25 hsi elk 

smin_a = SignedMinA (a, b, c); 

smin_b = SignedMinB (a, b, c); 

printf("SignedMinA(X4d, %4d, %4d) = %4d\n", a, b, c, smin a); 
printf("SignedMinB(X4d, 44d, %4d) = %4d\n\n", a, b, c, smin b); 


a = -3; b = -22; c = 28; 

smin_a = SignedMinA (a, b, c); 

smin_b = SignedMinB (a, b, c); 

printf("SignedMinA(X4d, %4d, %4d) = %4d\n", a, b, c, smin a); 
printf("SignedMinB(X4d, %4d, %4d) = %4d\n\n", a, b, c, smin b); 


li 


as17; b = 373 € = -11; 

smin a = SignedMinA (a, b, c); 
smin b - SignedMinB (a, b, c); 
printf("SignedMinA(X4d, %4d, %4d) 
printf("SignedMinB(%4d, %4d, %4d) 


44dÀn", a, b, c, smin_a); 
%4d\n\n", a, b, c, smin b); 


"ag 


// SignedMax 示例 
a-10;b-5;c-3; 

smax a - SignedMaxA (a, b, c); 
smax b - SignedMaxB (a, b, c); 
printf("SignedMaxA(X4d, %4d, %4d) 
printf("SignedMaxB(%4d, %4d, %4d) 


%ąd\n", a, b, c, smax a); 
#4d\n\n", a, b, c, smax b); 


aàs-3; b = 28% C = 15; 

smax_a = SignedMaxA (a, b, c); 

smax b = SignedMaxB (a, b, c); 

printf("SignedMaxA(X4d, 94d, %4d) = %4d\n", a, b, c, smax a); 
printf("SignedMaxB(X4d, %4d, %4d) = %4d\n\n", a, b, c, smax b); 


a = -25; b = -37; c = -17; 
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smax a - SignedMaxA (a, b, c); 
smax b - SignedMaxB (a, b, c); 
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printf("SignedMaxA(%4d, %4d, %4d) = %4d\n", a, b, c, smax a); 
printf("SignedMaxB(%4d, %4d, %4d) = %4d\n\n", a, b, c, smax b); 


清单 2-14 ConditionCodes .asm 


.model flat,c 
.code 


; extern "C" int SignedMinA (int a, int b, int c); 
; 描述 : 使 用 条 件 跳 转 指令 寻找 三 个 带 符号 整数 的 最 小 值 


; 返回 值 : min(a，b，c) 


SignedMinA proc 
push ebp 
mov ebp,esp 
mov eax, [ebp«8] 
mov ecx, [ebp+12] 


;eax = 
;ecx = 


; 确定 min(a，b) 
cmp eax,ecx 
jle GF 
mov eax,ecx ;eax - 

; 确定 min(a，b，c) 

aa: mov ecx, [ebp+16] 
cmp eax,ecx 
jle @F 
mov eax,ecx 


jecx = 


jeax = 
@@: pop ebp 
ret 
SignedMinA_ endp 


; extern "C" int SignedMaxA (int a, int b, int c); 


; 描述 。 使 用 条 件 跳 转 指令 寻找 三 个 带 符号 整数 的 最 大 值 
; EN, needa, b, c 


SignedMaxA_ proc 
push ebp 
mov ebp,esp 
mov eax, [ebp+8] 
mov ecx, [ebp+12] 


;eax = 
;ecx = 


cmp 
jge 
mov 


eax,ecx 
@F 

eax,ecx ;eax = 
mov 
cmp 
jge 
mov 


ecx, [ebp+16] 
eax,ecx 

GF 

eax,ecx 


;ecx = 


;eax - 


QQ: pop ebp 


ret 


SignedMaxA endp 


min(a, b, c) 


max(a, b, c) 


B 
to 
* 
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; extern "C" int SignedMinB (int a, int b, int c); 
; 描述 : 使 用 条 件 赋值 指令 寻找 三 个 带 符号 整数 的 最 小 值 
; 返回 值 : min(a, b, c) 


SignedMinB proc 
push ebp 
mov ebp,esp 
mov eax, [ebp+8] ;eax = ‘a’ 
mov ecx, [ebp+12] jecx = 


3 使 用 CMOVG 指令 确定 最 小 值 
cmp eax,ecx 
cmovg eax,ecx ;eax = min(a, b) 
mov ecx, [ebp+16] ;ecx = 'c' 
cmp eax,ecx 
cmovg eax,ecx ;eax - min(a, b, c) 


pop ebp 
ret 
SignedMinB_ endp 


; extern "C" int SignedMaxB (int a, int b, int c); 
; 描述 。 使 用 条 件 赋值 指令 寻找 三 个 带 符号 整数 的 最 大 值 


; 返回 值 : max(a, b, c) 


SignedMaxB proc 
push ebp 
mov ebp,esp 
mov eax, [ebp+8] ;eax 
mov ecx, [ebp+12] ;ecx 


"ow 
w 


; 使 用 CMOVL 指令 确定 最 大 值 
cmp eax,ecx 
cmovl eax,ecx ;eax = max(a, b) 
mov ecx, [ebp+16] ex = "e 
cmp eax,ecx 
cmovl eax,ecx ;eax = max(a, b, c) 


pop ebp 
ret 

SignedMaxB endp 
end 


当 编 写 代 码 实现 某 个 算法 时 ， 常 常 需要 判断 两 个 数 的 最 小 值 和 最 大 值 。Visual C++ 定义 
SRSA min 和 ”max 来 支持 这 样 的 操作 。ConditionCodes_.asm 文件 中 包含 了 三 参数 版 
本 的 带 符号 整数 最 小 值 和 最 大 值 函数 。 编 写 这 些 函 数 的 目的 是 为 了 演示 如 何 正 确 使 用 jcc 和 
cmovcc 指令 。 

第 一 个 函数 用 来 找 三 个 带 符号 整数 的 最 小 值 ， 取 名 为 SignedMinA_。 在 函数 序言 之 后 ， 
第 一 块 代码 使 用 cmp eax, ecx 和 jle @F 来 确定 min(a, b)。 如 我 们 在 本 章 前 面 所 讲 过 的 ，cmp 
指令 会 从 目标 操作 数 中 减 去 源 操作 数 ， 并 根据 结果 (结果 并 不 保存 到 目标 操作 数 ) 设置 状态 
标志 。 指 令 jle (Jump if Less or Equal， 小 于 等 于 则 跳 转 ) 的 目标 是 @OF， 它 是 一 个 汇编 器 符号 ， 
其 作用 是 把 最 近 的 前 向 @@ 标记 用 作 条 件 跳 转 指令 的 目标 (符号 @B 可 以 用 作 后 向 跳 转 )。 
在 计算 min(a, b) 之 后 ， 接 下 来 的 代码 块 判断 min(min(a, b), c)， 使 用 的 技术 相同 。 因 为 结果 已 
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经 在 EAX 寄存 器 中 ， 所 以 接 下 来 SignedMinA_ 便 可 以 执行 函数 结语 并 返回 到 调用 者 。 

函数 SignedMaxA_ 使 用 同样 的 方法 来 找 三 个 带 符号 整数 的 最 大 值 。SignedMaxA_ 和 
SignedMinA_ 之 间 的 唯一 区 别 是 使 用 jge (Jump if Greater or Equal， 大 于 等 于 则 跳 转 ) 指令 ， 
而 不 是 jle 指令 ， 

编写 函数 SignedMaxA_ fil SignedMinA_ 的 无 符号 整数 版 本 并 不 难 ， 只 要 把 jle 和 jge 指 
令 分 别 修改 为 jbe (Jump if Below or Equal) 和 jae (Jump if Above or Equal) 即 可 。 回 忆 我 们 
在 第 1 章 中 介绍 的 内 容 ，greater 和 less 用 在 有 符号 整数 操作 数 的 情况 ， 而 above 和 below 用 
在 无 符号 整数 操作 数 的 情况 。 

SignedMinMax .asm 文件 中 还 包含 了 SignedMinB 和 SignedMaxB_ 函数。 它们 使 用 条 
件 赋值 指令 而 不 是 条 件 跳 转 指 令 来 确定 三 个 带 符号 整数 的 最 小 值 和 最 大 值 。 指 令 cmovce 测 
试 指定 的 条 件 是 否 为 真 ， 如 果 为 真 就 把 源 操作 数 复 制 到 目标 操作 数 。 如 果 指 定 的 条 件 为 假 ， 
那么 目标 操作 数 的 值 不 变 。 

阅读 SignedMaxB_ 涵 数 的 代码 ， 你 可 能 注意 到 每 条 cmp eax, ecx 指令 之 后 都 跟着 一 条 
cmovg eax, ecx 指令 。 如 果 EAX 大 于 ECX, 那么 这 条 cmovg 指令 会 把 ECX 的 内 容 复制 到 
EAX, PARC SignedMinB 使 用 的 方法 非常 类 似 ， 只 不 过 使 用 了 cmovl 而 不 是 cmovg 来 保存 
较 小 的 带 符号 整数 。 这 两 个 函数 的 无 符号 版 本 也 很 容易 得 到 ， 只 要 用 cmova 和 cmovb 分 别 
替换 cmovg 和 cmovl 就 可 以 了 。 执 行 ConditionCodes 示例 程序 的 结果 如 输出 2-6 所 示 。 


输出 2-6 示例 程序 ConditionCodes 


SignedMinA( 2, 15, 8) - 2 
SignedMinB( 2, 15, 8) = 2 





SignedMinA( -3, -22, 28) = -22 
SignedMinB( -3, -22, 28) = -22 


SignedMinA( 17, 37, -11) = -11 
SignedMinB( 17, 37, -11) = -11 


SignedMaxA( 10, 5, ays do 
SignedMaxB( 10, 5y 3) = 40 


SignedMaxA( -3, 28, 15) = 28 
SignedMaxB( -3, 28, 15) = 28 


SignedMaxA( -25, -37, -17) = -17 
SignedMaxB( -25, -37, -17) = -17 


使 用 条 件 赋值 指令 来 减少 条 件 跳 转 指令 常常 可 以 提高 代码 的 执行 速度 ， 特 别 是 当 处 理 器 
无 法 精确 预测 跳 转 分 支 的 时 候 。 第 21 章 将 详细 讨论 与 条 件 跳 转 指 令 有 关 的 优化 问题 。 

我 们 最 后 要 介绍 的 条 件 指令 是 setce 指令 。 如 它 的 名 字 所 暗示 的 ， 如 果 测 试 结果 为 真 ， 
那么 setce 指令 会 把 8 位 的 目标 操作 数 设 置 为 1， 不 然 的 话 ， 目 标 操作 数 会 被 设置 为 0。 在 返 
回 或 者 设置 布尔 值 时 ， 这 条 指令 很 有 用 ， 如 清单 2-15 所 示 。 在 本 书后 面 的 例子 中 你 还 会 看 
到 一 些 使 用 setce 指令 的 例子 。 


清单 2-15 根据 条 件 设置 字 节 (setcc) 指令 的 用 法 
; extern "C" bool SignedIsEO (int a, int b); 


SignedIsEO proc 
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push ebp 
mov ebp,esp 


xor eax,eax 
mov ecx, [ebp+8] 
cmp ecx, [ebp+12] 
sete al 


pop ebp 
ret 
SignedIsEO endp 


2.3 数组 


数组 是 几乎 所 有 编程 语言 都 不 可 缺少 的 数据 结构 。 在 C++ 中 数组 和 指针 有 着 直接 的 联 
系 ， 数 组 的 名 字 实 际 上 就 是 指向 第 一 个 元 素 的 指针 。 而 且 ， 当 数组 用 作 C++ 函数 的 参数 时 ， 
传递 的 就 是 指针 ， 而 不 是 在 栈 上 拷贝 整个 数组 。 在 运行 期 动态 分 配 数组 时 ， 也 要 用 到 指针 。 
这 一 节 将 分 析 一 些 操 作 数组 的 x86-32 汇编 语言 函数 。 第 一 个 例子 演示 如 何 访 问 一 个 一 维 数 
组 的 元 素 。 第 二 个 例子 演示 使 用 输入 和 输出 数组 来 处 理 元 素 。 最 后 一 个 例子 演示 操作 二 维 数 
组 的 一 些 技术 。 

在 分 析 正 式 的 示例 代码 之 前 ， 我 们 先 对 C++ 中 的 数组 概念 做 个 快速 回顾 。 阅 读 清单 2-16 
所 示 的 简单 程序 。 在 函数 CalcArrayCubes 中 ， 数 组 x 和 y 的 元 素 被 保存 在 栈 上 的 连续 内 存 块 
内 。 调 用 函数 CalcArrayCubes 导致 编译 器 从 左 至 右 向 栈 上 压 人 三 个 参数 : n 的 值 、 指 向 x 的 第 
一 个 元 素 的 指针 以 及 指向 y 的 第 一 个 元 素 的 指针 。CalcArrayCubes 函数 内 的 for 循环 中 有 一 条 
语句 int temp = x[j， 它 会 把 数组 x 的 第 i 个 元 素 的 值 赋 给 temp。 这 个 元 素 的 地 址 就 是 x 加 上 
i*4， 因 为 一 个 int 整数 的 大 小 就 是 4 个 字 节 。 也 可 以 用 同样 的 方法 来 计算 数组 y 的 元 素 地 址 。 


清单 2-16 CalcArrayCubes.cpp 
#include "stdafx.h" 


void CalcArrayCubes(int* y, const int* x, int n) 


{ 
for (int i = 0; i < n; i++) 
{ 
int temp = x[i]; 
y[i] = temp * temp * temp; 


} 
int tmain(int argc, _TCHAR* argv[]) 
int x[] = { 2, 7, -4, 6, -9, 12, 10 K 
const int n = sizeof(x) / sizeof(int); 
int y[n]; 
CalcArrayCubes(y, x, n); 
for (int i = 0; i < n; ie) 
printf("i: %4d x: %4d y: %4d\n", i, x[i], y[i]); 
printf("\n"); 


return 0; 
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2.3.1 一 维 数组 


这 一 小 节 将 分 析 几 个 示例 程序 ， 它 们 用 来 演示 如 何在 x86 汇编 语言 中 使 用 一 维 数组 。 
第 一 个 示例 程序 叫 CalcArraySum， 它 包含 了 一 个 可 以 对 整数 数组 求 和 的 函数 ， 还 演示 了 
如 何 循环 访问 数组 的 每 个 元 素 。 清 单 2-17 和 清单 2-18 分 别 列 出 了 CalArraySum.cpp 和 
CalcArraySum .asm 文件 的 源 代 码 。 


清单 2-17 CalcArraySum.cpp 
#include "stdafx.h" 


extern "C" int CalcArraySum (const int* x, int n); 
int CalcArraySumCpp(const int* x, int n) 
{ 


int sum = 0; 


for (int i = 0; i < n; i++) 
sum += *x++; 


return sum; 


int tmain(int argc, TCHAR* argv[]) 


int x[] = {1, Ts. 92, 5, 25 95 -6, 12}; 
int n = sizeof(x) / sizeof(int); 


printf("Elements of x[]\n"); 
for (int i = 0; i < n; i++) 
printf("%d ", x[i]); 

printf("\n\n"); 


int sum1 
int sum2 


CalcArraySumCpp(x, n); 
CalcArraySum (x, n); 


printf("sumi: %d\n", sumi); 
printf("sum2: %d\n", sum2); 
return 0; 


清单 2-18 CalcArraySum .asm 


.model flat,c 
.code 


; extern "C" int CalcArraySum (const int* x, int n); 
; 描述 ， 对 带 符号 整数 数组 中 各 元 素 求 和 


CalcArraySum proc 


push ebp 

mov ebp,esp 
; 加 载 参数 并 初始 化 和 

mov edx, [ebp+8] ;edx = 'x' 

mov ecx, [ebp+12] ;ecx = 'n' 

XOI eax,eax ;eax = 和 


; 确保 'n' AFO 


* 


40 R2 


cmp ecx,0 
jle InvalidCount 


; 计算 数组 元 素 的 和 “_ 

@@: add eax, [edx] ; 把 下 一 个 元 素 累 加 到 和 
add edx,4 ; 把 指针 指向 下 一 个 元 素 
dec ecx ; 调整 计数 器 
jnz @B ; 如 果 没 完成 就 重复 


InvalidCount: 
pop ebp 
ret 
CalcArraySum endp 
end 





注意 这 一 章 的 其 余 例子 和 后 面 例子 的 Visual Studio 方案 文件 使 用 的 命名 规则 为 : Cha 
pter##\<ProgramName>\<ProgramName>.sln。 其 中 # 检 代表 章 号 ，<ProgramName> 代表 示例 
程序 的 名 字 。 

CalcArraySum 程序 的 C++ 部 分 (清单 2-17) 包含 了 一 个 名 为 CalcArraySumCpp 的 测 
试 函 数 ， 它 把 一 个 带 符 号 整数 数组 的 所 有 元 素 累 加 起 来 。 尽 管 这 种 做 法 是 没有 必要 的 ,但 是 
先 用 C++ 编写 一 个 函数 ， 然 后 再 编写 x86 汇编 语言 的 等 价 版 本 在 软件 测试 和 调试 中 常常 是 
很 有 用 的 。 汇 编 语言 函数 CalcArraySum_ (清单 2-18 ) 与 CalcArraySum 的 计算 结果 一 样 。 
在 函数 序言 之 后 ， 把 指向 数组 x 的 指针 加 载 到 EDX 寄存 器 。 接 下 来 ， 参 数 n 的 值 被 复制 到 
ECX 寄存 右 中 。 紧 接 的 是 一 条 xor eax, eax (逻辑 异 或 ) 指令 ， 它 把 和 初始 化 为 0。 

只 要 四 条 指令 就 可 以 遍历 数组 并 累加 元 素 。 指 令 add eax, [edx] 把 当前 的 数组 元 素 累 加 
到 和 中 ， 然 后 对 EDX 寄存 器 加 4 让 其 指向 数组 的 下 一 个 元 素 。 指 令 dec ecx 从 计数 器 中 递 
减 1 并 更 新 EFLAGS.ZF 状态 。 这 可 以 让 jnz (Jump if not Zero， 不 为 零 则 跳 转 ) 指令 在 所 有 
n 个 元 素 都 累加 之 后 结束 循环 。 这 几 条 指令 组 成 的 序列 与 CalcArraySumCpp PACE fH for 循 
环 是 等 价 的 。 执 行 CalcArraySum 程序 的 结果 如 输出 2-7 所 示 。 


输出 2-7 示例 程序 CalcArraySum 





Elements of x[] 
17-3529 -6 12 


sum1: 27 
sum2: 27 








使 用 数组 编程 时 ， 经 常 需要 编写 函数 一 个 一 个 地 处 理 数组 元 素 。 我 们 前 面 在 函数 
CalcArrayCubes (清单 2-16 ) 中 看 到 的 便 是 一 个 例子 ， 该 函数 对 输入 数组 的 每 个 元 素 求 立方 ， 
并 把 结果 保存 到 另 一 个 数组 中 。 下 一 个 示例 程序 名 为 CalcArraySquares， 演 示 了 如 何 使 用 
汇编 语言 函数 执行 类 似 的 操作 。 清 单 2-19 和 清单 2-20 分 别 给 出 了 CalcArraySquares.cpp 和 
CalcArraySquares .asm 的 源 代码 。 


清单 2-19 CalcArraySquares.cpp 








#include "stdafx.h" 
extern "C" int CalcArraySquares (int* y, const int* x, int n); 


int CalcArraySquaresCpp(int* y, const int* x, int n) 
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int sum = 0; 
for (int i = 0; i < n; ie) 


y[i] = x[i] * x[i]; 
sum += y[i]; 


} 
return sum; 
} 
int tmain(int argc, TCHAR* argv[]) 
{ 
int x[] = {25 3, 5, f; 11, 135: 17; 19, 23; 29}; 
const int n = sizeof(x) / sizeof(int); 
int y1[n]; 
int y2[n]; 
int sum_y1 = CalcArraySquaresCpp(y1, x, n); 
int sum y2 - CalcArraySquares (y2, x, n); 
for (int i = 0; i < n; ie) 
printf("i: %2d x: %4d y1: %4d y2: %4d\n", i, x[i], y1[i], y2[i]); 
printf("\n"); 
printf("sum y1: %d\n", sum y1); 
printf("sum y2: %d\n", sum y2); 
return 0; 
} 


清单 2-20 CalcArrayCubes.cpp 


.model flat,c 
.code 


; extern "C" int CalcArraySquares (int* y, const int* x, int n); 
; 描述 : 计算 y[i] = x[i] * x[i] 
; 返回 值 : 数组 y 中 各 个 元 素 的 和 


CalcArraySquares proc 
push ebp 
mov ebp,esp 
push ebx 
push esi 
push edi 


; 加 载 参数 
mov edi, [ebp+8] jedi 
mov esi, [ebp+12] ;esi 
mov ecx, [ebp+16] ;ecx 


; 初始 化 和 寄存 器 ， 计 算数 组 的 字 节 数 ， 

; 并 初始 化 元 素 的 偏 移 寄存 器 
xor eax,eax ;eax = 'y' 数组 的 和 
cmp ecx,0 
jle EmptyArray 
shl ecx,2 ;ecx = 数组 的 字 节 数 
xor ebx,ebx ;ebx = 数组 元 素 偏 移 
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; 重复 循环 ， 直 至 结束 
90: mov edx, [esi«ebx] ; 加 载 下 一 个 x[i] 
imul edx,edx ;计算 x[i] *x[i] 
mov [edi+ebx],edx ; 保存 结果 到 y[i] 
add eax,edx ; 更 新 和 
add ebx,4 ; 更 新 数组 元 素 偏 移 
cmp ebx,ecx 


jl eB ; 若 没有 完成 则 跳 转 


EmptyArray: 
pop edi 


CalcArraySquares_ endp 
end 





函数 CalcArraySquares (清单 2-20) 计算 数组 x 中 的 每 个 元 素 的 平方 ， 然 后 把 结果 保 
存 到 数组 y 的 对 应 元 素 中 。 它 也 计算 y 中 的 元 素 和 。 在 函数 序言 之 后 ， 寄 存 器 ESI 和 EDI 
分 别 被 初始 化 为 指向 x 和 y 的 指针 。 而 后 加 载 n 到 寄存 器 ECX， 并 把 用 来 计算 和 的 EAX W 
始 化 为 0。 在 检查 n 的 有 效 性 之 后 ， 使 用 shl ecx, 2 指令 来 计算 数组 的 字 节 数 ， 这 个 值 用 来 
终止 循环 。 然 后 把 EBX 寄存 右 初 始 化 为 0， 后 面 将 用 它 来 记录 数组 x 和 y 中 的 偏 移 。 

处 理 循环 使 用 mov edx, [esi+ebx] 指令 来 把 x[i] 加 载 到 寄存 器 EDX 中 ， 然 后 使 用 双 目 形 
式 的 imul 指令 来 求 平方 。 然 后 使 用 mov[edi+ebx]，ebx 指令 把 该 值 保存 到 yli] 中 。 指 令 add 
eax, edx 把 yfi] RIEA ik EAX 保存 的 和 中 。 指 令 add ebx, 4 用 来 计算 指向 x 和 Yy 的 下 
一 个 元 素 的 偏 移 值 。 只 要 EBX 寄存 器 中 的 偏 移 值 小 于 ECX 寄存 器 中 的 数组 长 度 Cx 
位 )， 处 理 循环 便 反 复 执 行 。 执 行 CalcArraySquares 程序 的 结果 如 输出 2-8 所 示 。 


输出 2-8 ”示例 程序 CalcArraySquares 


i: 0 x 2 yi: 4 y2: 4 
is 4 X 3 yi: 9 y2: 9 
we 2 X 5 yi 45 yas 25 
1 3 x 7 yi: 49 y2: 49 
1: 4 x 11 yi: 121 y2: 121 
iu S x 13 y1: 169 y2: 169 
if X 17 y1: 289 y2: 289 
1: 7 x 19 y1: 361 y2: 361 
is B ox 23 y1: 529 y2: 529 
it 9 x 29 y1: 841 y2: 841 
sum y1: 2397 

sum y2: 2397 

2.3.2 ”二 维 数组 


在 C++ 中 ， 可 以 使 用 一 个 连续 的 内 存 块 来 存储 二 维 数组 或 者 矩阵 的 元 素 。 编 译 器 可 以 
产生 代码 ， 用 简单 的 指针 变换 来 访问 每 个 矩阵 元 素 。 程 序 员 也 可 以 手工 调整 指针 来 操作 拢 
阵 。 本 节 的 示例 程序 演示 使 用 x86 汇编 语言 来 访问 矩阵 的 元 素 。 在 阅读 汇编 程序 之 前 ， 我 们 
先 仔细 看 一 下 C++ 是 如 何 处 理 内 存 中 的 矩阵 的 。 

C++ 使 用 行 优先 (row-major) 的 排序 方法 在 内 存 中 组 织 二 维 矩 阵 。 这 种 排序 方法 以 “ 先 
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按 行 再 按 列 ”的 方式 来 组 织 元 素 。 举 例 来 说 ， 和 矩阵 int x[3][2] 的 元 素 在 内 存 中 的 顺序 为 : 
x[0][0], x[0][1], x[1][0], x[1][1], x[2][0], x[2][1]。 为 了 能 访问 数组 中 的 特定 元 素 ，C++ 编译 
器 必须 知道 行 和 列 的 索引 、 总 的 列 数 ， 以 及 起 始 地 址 。 有 了 这 些 信息 之 后 ， 便 可 以 使 用 指针 
来 访问 元 素 了 ， 如 清单 2-21 所 示 。 


清单 2-21 CalcMatrixCubes.cpp 
#include "stdafx.h" 


void CalcMatrixCubes(int* y, const int* x, int nrows, int ncols) 


{ 
for (int i = 0; i < nrows; i++) 
{ 
for (int j = 0; j « ncols; j++) 
int k - i * ncols + j; 
y[k] = xIk] * x[k] * x[k]; 
) 
) 


int tmain(int argc, TCHAR* argv[]) 


const int nrows - 4; 

const int ncols - 3; 

int x[nrows][ncols] ti { 1，2，3 }， {4, 5,6}, {7, 8, 9}, 
9 (310,11, 12 } }5 

int y[nrows][ncols]; 


CalcMatrixCubes(&y[0][0], &x[o][0], nrows, ncols); 
for (int i = 0; i « nrows; i++) 


for (int j = 0; j « ncols; j++) 
printf("(X2d, 42d): %6d, X6dNn", i, j, x[i][j], y[i][j]); 


return 0; 


} 


在 函数 CalcMatrixCubes (清单 2-21 ) P, MEM ICR I ae Lit Ast i * ncols + j 
唯一 确定 的 ， 其 中 1 和 j 是 矩阵 的 行 和 列 索 引 。 在 计算 元 素 的 偏 移 之 后 ， 便 可 以 使 用 同样 的 
格式 来 引用 矩阵 元 素 了 ， 这 与 在 一 维 数组 中 引用 元 素 的 方式 是 一 样 的 。 这 一 节 的 示例 程序 (名 
为 CalcMatrixRowColSums) 使 用 上 述 方法 来 对 和 矩阵 的 行 和 列 来 求 和 。 清 单 2-22 和 清单 2-23 分 
别 列 出 了 CalcMatrixRowColSums.cpp 和 CalcMatrixRowColSums .asm 的 源 代码 。 


清单 2-22 CalcMatrixRowColSums.cpp 


#include "stdafx.h" 
#include <stdlib.h> 


// 函数 PrintResults zE NX CalcMatrixRowColSumsMisc.cpp 中 
extern void PrintResults(const int* x, int nrows, int ncols, int* row sums, 
= int* col sums); 


extern "C" int CalcMatrixRowColSums (const int* x, int nrows, int ncols, 
œ= int* row sums, int* col sums); 
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void CalcMatrixRowColSumsCpp(const int* x, int nrows, int ncols, int* 
œ row sums, int* col sums) 


for (int j = 0; j « ncols; j++) 
col sums[j] = 0; 


for (int i = 0; i < nrows; i++) 
{ 

row sums[i] = 0; 

int k = i * ncols; 


for (int j = 0; j < ncols; j++) 


int temp = x[k + j]; 
row sums[i] += temp; 
col sums[j] += temp; 


int tmain(int argc, _TCHAR* argv[]) 


const int nrows - 7, ncols - 5; 
int x[nrows][ncols]; 


// 初始 化 测试 矩阵 
srand(13); 
for (int i = 0; i < nrows; i++) 
{ 
for (int j = 0; j < ncols; j++) 
x[i][j] = rand() X 100; 


// 计算 行 和 列 的 和 
int row sumsi[nrows], col sumsi[ncols]; 
int row sums2[nrows], col sums2[ncols]; 


CalcMatrixRowColSumsCpp((const int*)x, nrows, ncols, row sums1, 
= col sumsi); 

printf("\nResults using CalcMatrixRowColSumsCpp() Wn"); 
PrintResults((const int*)x, nrows, ncols, row sumsi, col sumsi); 


CalcMatrixRowColSums ((const int*)x, nrows, ncols, row sums2, 

= col sums2); 

printf("\nResults using CalcMatrixRowColSums ()Wn"); 
PrintResults((const int*)x, nrows, ncols, row sums2, col sums2); 


return 0; 





清单 2-23 CalcMatrixRowColSums_.asm 


.model flat,c 
.code 


; extern "C" int CalcMatrixRowColSums (const int* x, int nrows, int ncols, 
== int* row sums, int* col sums); 


> 描述 : 对 二 维 数组 中 的 行 和 列 求 和 


返回 值 : 0 = 'nrows' 3} 'ncols' 是 无 效 的 


$2 
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j 1 = 成 功 


CalcMatrixRowColSums proc 
push ebp 
mov ebp,esp 
push ebx 
push esi 
push edi 


; 确保 'nrow' 和 'ncol' 是 有 效 的 
XOr eax,eax 
cmp dword ptr [ebp+12],0 
jle InvalidArg 
mov ecx, [ebp«16] 
cmp ecx,0 
jle InvalidArg 


; 初始 化 'col_sums' 数组 的 元 素 为 零 
mov edi, [ebp+24] 
xor eax,eax 
rep stosd 


; 初始 化 外 层 循环 变量 
mov ebx, [ebp+8] 
xor esi,esi 


; 外 层 循 环 
Lp1: mov edi, [ebp+20] 
mov dword ptr [edi+esi*4],0 


xor edi,edi 
mov edx,esi 
imul edx, [ebp+16] 


; 内 层 循环 

Lp2: mov ecx,edx 
add ecx,edi 
mov eax, [ebx«ecx*4] 
mov ecx, [ebp+20] 
add [ecx«esi*4],eax 
mov ecx, [ebp+24] 
add [ecx+edi*4], eax 


; 内 层 循环 是 否 结束 ? 
inc edi 
cmp edi, [ebp+16] 
jl Lp2 


; 外 层 循环 是 否 结束 ? 
inc esi 
cmp esi, [ebp+12] 
jl Lpa 
mov eax,1 


InvalidArg: 

pop edi 

pop esi 

pop ebx 

pop ebp 

ret 
CalcMatrixRowColSums endp 

end 





; 错误 返回 码 

;[ebpr12] = 'nrows' 

; 若 nrows <= 0， 则 跳 转 
;ecx = 'ncols' 


;jump if ncols <= 0 


;edi - 'col sums' 
;eax = 要 填充 的 值 
; 把 数组 填充 为 全 零 


;ebx = 'x 
zd s 


jedi = 'row sums' 
;row sums[i] = 0 


订 =0 
yedx = i 
jedx = i * ncols 


;ecx = i * ncols 

i * ncols +j 
x[i * ncols + j] 
;ecx = 'row sums' 

;row sums[i] += eax 
jecx = 'col sums' 

;col sums[j] += eax 


- 9 
Oo o 
on 
x x 
"ow 


;j++ 


;# j < ncols， 则 跳 转 


ji++ 


; i < nrows， 则 跳 转 
; 设置 成 功 返 回 码 
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先 来 看 一 下 行 - 列 求 和 算法 的 C++ 实现 。 清 单 2-22 包含 了 一 个 名 为 CalcMatrixRow- 
ColSumsCpp 的 函数 。 这 个 函数 遍历 输入 矩阵 x， 每 一 次 循环 时 ， 它 把 当前 矩阵 元 素 累 加 到 
数组 row_sums 和 col sums fi Hi, PR XC CalcMatrixRowColSumsCpp 使 用 了 前 面 讨 论 
的 指针 算术 技术 来 唯一 地 引用 和 矩 阵 元 素 。 

清单 2-23 显示 了 行 - 列 求 和 算法 的 汇编 语言 版 本 。 在 函数 序言 之 后 ， 先 检查 参数 nrows 
和 ncols 的 有 效 性 。 接 下 来 用 rep stosd ( Repeat Store String Doubleword， 重 复 存储 串 双 字 ) 指 
令 来 把 col sums 的 元 素 都 初始 化 为 0。 指令 stosd 把 寄存 器 EAX 内 容 存 储 到 EDI 指向 的 内 存 
单元 ， 然 后 更 新 EDI 使 其 指向 下 一 个 数组 元 素 。 其 中 的 rep 助 记 符 是 指令 前 级 ， 它 告诉 处 理 
器 使 用 ECX 寄存 器 作为 计数 需 循环 执行 存储 操作 。 在 每 次 存储 操作 之 后 ，ECX 会 被 递减 1 ， 
stosd 反复 执行 ， 直 到 ECX 等 于 0。 在 本 章 后 面 我 们 还 会 更 详细 地 介绍 x86 的 串 处 理 指令 。 

PK XC CalcMatrixRowColSums 使 用 寄存 器 EBX 来 存放 输入 矩阵 x 的 基 址 。 寄 存 器 
ESI 和 EDI 分 别 包 含 行 和 列 索 引 。 每 个 外 层 循环 首先 把 row_sums[ 订 初始 化 为 0， 然 后 计 
算出 k 值 。 在 每 个 内 层 循 环 中 ， 计 算 当 前 矩阵 元 素 的 最 终 偏 移 。 然 后 使 用 指令 mov eax, 
[ebxtecx*4] 把 矩阵 元 素 加 载 到 EAX 中 。 接 下 来 ， 再 把 EAX 累加 到 数组 row sums 和 col_ 
sums 的 对 应 项 中 。 这 一 过 程 反复 进行 ， 直 到 和 矩阵 x 中 的 所 有 元 素 都 被 累加 到 总 和 数组 中 为 
止 。 注 意 这 个 函数 广泛 使 用 了 BaseReg+IndexReg*ScaleFactor 形式 的 内 存 寻 址 模式 ， 这 使 得 
从 和 矩阵 x 中 加 载 元 素 和 更 新 row sums 和 col sums 中 的 元 素 变 得 很 简单 ， 如 图 2-5 所 示 。 执 

[65] 行 这 个 CaleMatrixRowColSums 程序 的 结果 如 输出 2-9 所 示 。 





x[7][5] i = 2;j 23; ecx=i*ncols+j 
ebx» | [oo | [ON] | [012] | -- | [21D] is [6][4] 





mov eax,[ebx+ecx*4] 


row_sums[7] i=esi=2 


ecx> | [0] [1] [2] [3] [4] [5] [6] 





add [ecx+esi*4],eax 


col sums[5] j= edi=3 
ecx> | [0] [1] [2] [3] [4] 





add [ecx+edi*4],eax 


图 2-5 函数 CalcMatrixRowColSums_ 中 使 用 的 内 存 寻 址 模式 


输出 2-9 示例 程序 CalcMatrixRowColSums 
Results using CalcMatrixRowColSumsCpp() 


81 76 96 48 ms 38 
76 59 99 93 23 == 350 
30 73 4 75 23 -- 205 
40 99 69 96 88 -- 392 
37 67 40 92 88 -- 324 
15 80 16 62 72 -- 245 
90 23 4 55 22 -- 194 


369 477 328 521 388 


Results using CalcMatrixRowColSums () 
81 76 96 48 72 == 373 
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76 59 99 93 23 350 
30 73 4 75 23 205 
40 99 69 96 88 392 
37 67 40 92 88 324 
15 80 16 62 72 245 
90 23 4 55 22 194 
369 477 328 521 388 
2.4 结构 体 
结构 体 是 编程 语言 的 一 种 基础 构件 ， 通 过 它 程序 员 可 以 使 用 已 经 存在 的 数据 类 型 定义 新 


的 数据 类 型 。Visual C++ 和 MASM 都 支持 结构 体 。 在 这 一 节 中 ， 你 将 学 习 如 何 定义 一 个 在 
C++ 和 汇编 语言 中 都 可 以 使 用 的 公共 结构 体 。 我 们 还 会 讨论 定义 多 种 语言 都 要 使 用 的 结构 体 
时 程序 员 要 注意 的 问题 。 除 了 基本 的 结构 体 用 法 ,这 一 节 的 示例 程序 还 会 演示 如 何在 汇编 语 
言 函数 中 调用 标准 的 C++ 库 函 数 。 你 还 会 学 到 儿 条 新 的 x86-32 汇编 语言 指令 。 

在 C++ 中， 结构 体 等 价 于 类 (class)。 当 使 用 struct 关键 字 (而 不 是 class) 定义 一 个 数 


据 类 型 时 ， 默 认 所 有 的 成 员 都 是 公开 的 。 另 一 种 定义 结构 体 的 方法 是 使 用 C 风格 的 定义 ，. 


比如 typedef struct{…}MyStruct;。 这 种 风格 适合 定义 只 包含 数据 成 员 的 结构 体 ， 本 节 的 例子 
使 用 的 就 是 这 种 方式 。C++ 的 结构 体 定 义 通常 放 在 头 文件 里 ， 以 便 可 以 很 方便 地 在 多 个 文件 
中 引用 。 这 种 技术 对 于 汇编 语言 编程 也 是 适用 的 。 不 幸 的 是 ， 没 有 办 法 只 在 一 个 头 文件 里 定 
义 结 构 体 而 在 C++ 和 汇编 语言 源 代 码 里 都 能 引用 。 如 果 你 要 在 C++ 和 汇编 语言 里 使 用 同一 
个 结构 体 ， 那 么 必须 定义 两 次 ， 而 且 必 须 保 证 它们 在 语义 上 等 价 。 


2.4.1 简单 结构 体 


我 们 要 学 习 的 第 一 个 示例 程序 叫 CalcStructSum。 这 个 程序 演示 了 如 何在 两 个 函数 中 使 
用 同一 个 基本 的 结构 体 ， 这 两 个 函数 一 个 是 用 C++ 编写 的 ， 另 一 个 是 用 x86 汇编 语言 编写 
的 。 清 单 2-24 和 清单 2-25 各 定义 了 一 个 简单 的 结构 体 ， 名 为 TestStruct， 这 一 节 的 所 有 示 
例 程 序 都 会 使 用 这 个 结构 体 定义 。 





清单 2-24 TestStruct.h 





typedef struct 


int8 Val8; 
int8 Pad8; 
int16 Val16; 
int32 Val32; 

. int64 Val64; 
) TestStruct; 





清单 2-25 TestStruct .inc 





TestStruct struct 
Val8 byte ? 
Pad8 byte ? 
Val16 word ? 
Val32  dword ? 
Val64  qword ? 
TestStruct ends 
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清单 2-24 中 的 C++ 定义 使 用 了 包含 大 小 的 整数 类 型 来 定义 每 个 成 员 ， 没 有 使 用 更 常见 
的 ANSI 类 型 。 包 括 我 在 内 的 很 多 开发 者 都 喜欢 使 用 包含 大 小 的 整数 类 型 来 定义 结构 体 和 矣 
数 参 数 ， 因 为 这 样 可 以 明确 描述 要 操纵 的 数据 类 型 的 长 度 。 关 于 TestStruct 的 另 一 个 值得 注 
意 的 细节 是 结构 体 中 的 Pad8 成 员 。 虽 然 这 样 做 不 是 强制 要 求 的 ， 但 是 这 种 写法 有 助 于 强调 
出 C++ 编译 器 默认 会 把 结构 体 成 员 按照 自然 边界 对 齐 的 事实 。 清 单 2-25 中 的 TestStruct 汇 
编 版 本 看 起 来 和 它 的 C++ 版 本 很 类 似 。 最 大 的 不 同 是 ， 汇 编 器 不 会 对 结构 体 成 员 按照 其 自 
然 边界 自动 对 齐 。 这 里 也 必须 定义 Pads 成 员 ， 没 有 这 个 Pads 成 员 的 话 ，C++ 版 本 和 汇编 版 
本 在 语义 上 就 不 同 了 。 每 个 数据 元 素 声明 后 面 的 问号 C? ) 通知 汇编 器 只 进行 存储 空间 分 配 ， 
同时 也 是 提醒 程序 员 这 样 的 结构 体 成 员 是 没有 初始 化 的 。 

清单 2-26 和 清单 2-27 分 别 列 出 了 CalcStructSum 示例 程序 的 C++ 和 汇编 语言 源 代码 。 
这 个 程序 的 C++ 部 分 是 很 直截了当 的 ，_tmain 函数 声明 了 一 个 TestStruct 结构 体 的 实例 ， 名 
为 tg。 在 初始 化 ts 之 后 ， 调 用 了 CalcStructSumCpp 函数 ， 这 个 函数 会 对 ts 的 成 员 求 和 并 返 
E 64 位 整数 的 结果 。 而 后 _tmain 函数 会 调用 汇编 语言 国 数 CalcStructSum_ 来 做 同样 的 求 和 
计算 。 


清单 2-26 CalcStructSum.cpp 





#include "stdafx.h" 
#include "TestStruct.h" 


extern "C"  int64 CalcStructSum (const TestStruct* ts); 


. int64 CalcStructSumCpp(const TestStruct* ts) 
{ 


} 


int _tmain(int argc, TCHAR* argv[]) 
{ 


return ts->Val8 + ts->Val16 + ts->Val32 + ts-»Val64; 


TestStruct ts; 


ts.Val8 - -100; 
ts.Val16 - 2000; 
ts.Val32 - -300000; 
ts.Val64 - 40000000000; 


. int64 sumi = CalcStructSumCpp(&ts) ; 
. int64 sum2 = CalcStructSum_(&ts) ; 


printf("Input: 4d Xd %d %lld\n", ts.Val8, ts.Val16, ts.Val3a2, 
= = ts.Val64); 

printf("sumi: %lld\n", sumi); 

printf("sum2: %lld\n", sum2); 


if (sumi !- sum2) 
printf("Sum verify check failed!\n"); 


return 0; 


清单 2-27 CalcStructSum .asm 


.model flat,c 
include TestStruct .inc 
.code 
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; extern "C" — int64 CalcStructSum (const TestStruct* ts); 
> 

> 描述 ， 对 TestStruc 的 成 员 求 和 

; 返回 值 : 以 64 位 整数 表达 的 ts 成 员 的 和 


CalcStructSum proc 
push ebp 
mov ebp,esp 
push ebx 
push esi 


; 计算 ts->Val8 + ts-»Val16, 注意 符号 扩展 到 32 位 
mov esi, [ebp+8] 
movsx eax,byte ptr [esi+TestStruct.Val8] 
movsx ecx,word ptr [esi+TestStruct.Val16] 
add eax,ecx 


; 把 和 符号 扩展 到 64 位 ， 结 果 保 存 到 ebx:ecx 
cdq 
mov ebx,eax 
mov ecx,edx 


; 把 ts->Val32 RMB 
mov eax, [esi+TestStruct.Val32] 
cdq 
add eax,ebx 
adc edx,ecx 


; 把 ts->Val164 累加 到 和 
add eax,dword ptr [esi+TestStruct.Val64] 
adc edx,dword ptr [esi+TestStruct.Val64+4] 


pop esi 

pop ebx 

pop ebp 

ret 
CalcStructSum endp 

end 


在 函数 序言 后 ， 清 单 2-27 中 的 CaleStruetSum 把 指向 ts 结构 体 的 指针 加 载 到 ESI 寄 
存 器 。 接 下 来 的 两 条 movsx (Move with Sign Extension， 带 符号 扩展 赋值 ) 指令 分 别 把 ts- 
>Val8 和 ts->Vall6 加 载 到 EAX 和 ECX 寄存 器 。movsx 指令 在 把 源 操作 数 复制 到 目标 操 
作 数 之 前 ， 会 先 创建 一 个 临时 拷贝 ， 然 后 做 符号 扩展 。 正 如 这 个 函数 所 演示 的 ，movsx 指 
令 经 常 被 用 来 把 8 位 或 者 16 位 的 源 操作 数 加 载 到 32 位 的 寄存 器 。 这 两 条 movsx 指令 也 演 
示 了 如 何在 汇编 语言 指令 中 引用 结构 体 成 员 。 从 汇编 器 的 角度 来 看 ， 指 令 movsx ecx, word 
ptr [esi+TestStruct.Val16] 就 是 BaseReg+Disp 的 内 存 寻 址 模式 ， 因 为 汇编 器 会 把 TestStruct. 
Vall6 这 样 的 结构 体 成 员 标识 符 消解 为 一 个 偏 移 常 量 。 

CalcStructSum_ 函数 使 用 add eax, ecx 指令 来 计算 ts—>Val8 和 ts->Val16 的 和 ， 然 后 使 
用 cdq 指令 把 得 到 的 和 做 符号 扩展 ， 把 64 位 的 结果 复制 到 ECX:EBX 寄存 器 对 。 接 下 来 ， 
ts->Val32 的 值 被 加 载 到 EAX 寄存 器 ， 符 号 扩展 到 EDX:EAX 寄存 器 对 ， 然 后 用 add 和 adc 
指令 将 其 与 前 面 的 临时 结果 累加 。 下 一 步 是 累加 结构 体 的 最 后 一 个 成 员 ts->Val64， 得 到 最 
终结 果 。Visual C++ 的 调用 约定 要 求 64 位 的 返回 值 放 在 EDX:EAX 寄存 器 对 中 。 既 然 最 终 
结果 已 经 在 所 要 求 的 寄存 器 对 中 ， 那 么 就 不 用 更 多 的 mov 指令 了 。 输 出 2-10 给 出 了 运行 这 
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个 CalcStructSum 程序 的 结果 。 


输出 2-10 “示例 程序 CalcStructSum 


Input: -100 2000 -300000 40000000000 
sumi: 39999701900 
Sum2: 39999701900 








2.4.2 动态 结构 体 创 建 


很 多 C++ 程序 使 用 new 运算 符 来 动态 创建 类 或 者 结构 体 的 实例 。 对 于 TestStruct 这 样 
只 包含 数据 成 员 的 结构 体 来 说 ， 可 以 使 用 标准 库 中 的 malloc 函数 来 在 运行 期 分 配 内 存 空间 ， 
创建 新 的 结构 体 实例 。 在 这 一 他， 你 将 看 到 如 何在 x86 汇编 语言 中 动态 创建 结构 体 实 例 ， 还 
会 学 习 如 何在 汇编 语言 函数 中 调用 C++ 库 函 数 。 这 一 节 的 示例 程序 命名 为 CreateStruct。 清 
单 2-28 和 清单 2-29 分 别 列 出 了 C++ 和 汇编 语言 源 文件 。 


清单 2-28 CreateStruct.cpp 





#include "stdafx.h" 
#include "TestStruct.h" 


extern "C" TestStruct* CreateTestStruct (_ int8 val8, _ int16 val16, _ int32 
= vala2,  int64 val64); 
extern "C" void ReleaseTestStruct (TestStruct* p); 


void PrintTestStruct(const char* msg, const TestStruct* ts) 


{ 
printf("%s\n", msg); 
printf(" ts-»Val8: %d\n", ts-»Val8); 
printf(" ts-»Vali16: %d\n", ts-»Val16); 
printf(" ts-»Val32: %d\n", ts-»Val32); 
printf(" ts-»Val64: %lld\n", ts-»Val64); 
} 
int tmain(int argc, TCHAR* argv[]) 
{ 
TestStruct* ts = CreateTestStruct (40, -401, 400002, -4000000003LL); 
PrintTestStruct("Contents of TestStruct 'ts'", ts); 
ReleaseTestStruct (ts); 
return 0; 
) 


清单 2-29 CreateStruct_.asm 





.model flat,c 

include TestStruct .inc 
extern malloc:proc 
extern free:proc 

.Code 


; extern "C" TestStruct* CreateTestStruct ( int8 val8, _ int16 val16, 
= int32 val32,  int64 val64); 


; 描述 : 创建 一 个 新 的 TestStruct 并 初始 化 


3J 


; 返回 值 : 指向 新 的 TestStruct 的 指针 或 者 NULL (如 果 发 生 错 误 ) 
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CreateTestStruct proc 
push ebp 
mov ebp,esp 


; 为 新 的 TestStruct 分 配 内 存 块 ， 注 意 malloc() 返回 的 指针 在 EAX 中 
push sizeof TestStruct 
call malloc 


add esp,4 
Or eax,eax ; NULL 指针 测试 
jz MallocError ; 若 malloc 失败 ， 跳 转 


; 初始 化 新 的 TestStruct 
mov dl,[ebp«8] 
mov [eax«TestStruct.Val8],dl 


mov dx, [ebp+12] 
mov [eax«TestStruct.Val16],dx 


mov edx, [ebp+16] 
mov [eax«TestStruct.Val32],edx 


mov ecx, [ebp«20] 

mov edx, [ebp+24] 

mov dword ptr [eax+TestStruct.Val64],ecx 
mov dword ptr [eax+TestStruct.Val64+4],edx 


MallocError: 

pop ebp 

ret 
CreateTestStruct  endp 


; extern "C" void ReleaseTestStruct (const TestStruct* p); 
> 
> 描述 : 释放 前 面 创建 的 Teststruct 


; 返回 值 : 无 


ReleaseTestStruct proc 
push ebp 
mov ebp,esp 


， 调 用 free() 来 释放 前 面 创建 的 结构 体 
push [ebp+8] 
call free 
add esp,4 
pop ebp 
ret 
ReleaseTestStruct endp 
end 
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清单 2-28 中 的 C++ 部 分 简单 易 懂 ， 它 包含 了 一 些 简单 的 测试 代码 来 调用 汇编 语言 函数 
CreateTestStruct 和 ReleaseTestStruct 。 在 CreateStructure .asm (清单 2-19 ) 的 开头 ，extern 
malloc:proc 语句 声明 了 外 部 C++ 库 函数 malloc。 紧 接 的 男 一 个 extern 语句 是 用 来 声明 free 
消 数 的 。 与 C++ 版 本 不 同 ， 汇 编 语言 中 的 extern 语句 不 支持 函数 参数 和 返回 类 型 。 这 意味 


着 汇编 右 不 能 帮 我 们 做 静态 的 类 型 检查 ， 程 序 员 必须 自己 负责 把 正确 的 参数 放 在 栈 上 。 


在 CreateTestStruct_ 函数 的 序言 之 后 ， 它 先 使 用 malloc 函数 来 为 TestStruct 的 新 实例 
分 配 内 存 块 。 在 使 用 malloc 或 者 其 他 C++ 运行 时 库 函 数 时 ， 调 用 函数 必须 遵守 标准 的 C++ 
调用 约定 。 指 令 push sizeof TestStruct 把 结构 体 TestStruct 的 字 节 数 压 到 栈 上 。 下 面 的 call 
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malloc 指令 发 起 对 C++ 库 函 数 的 调用 ， 而 后 的 add esp, 4 指令 用 来 移 除 (释放 ) 栈 上 的 参数 。 
与 其 他 所 有 标准 函数 一 样 ，malloc 也 使 用 EAX 来 返回 结果 。 在 使 用 前 我 们 先 测试 了 返回 指 
针 的 有 效 性 。 如 果 malloc 返回 的 指针 是 有 效 的 ， 新 的 结构 体 实 例 便 用 所 提供 的 参数 值 进行 
初始 化 。 最 后 把 这 个 指针 返回 给 调用 者 。 

使 用 malloc 分 配 的 内 存 块 在 使 用 完毕 后 必须 释放 掉 。 要 求 调 用 者 使 用 标准 库 困 数 free 
是 一 种 办 法 ,但 是 这 样 做 就 暴露 了 CreateTestStruct 函数 的 内 部 细节 ， 而 且 产生 了 不 必要 的 
依赖 。 在 实际 实现 中 ，CreateTestStruct_ 可 能 使 用 一 个 池 来 管理 预先 分 配 好 的 TestStruct 2€ 
冲 区 。 为 此 ，CreateStructure_.asm 中 定义 了 男 一 个 名 为 ReleaseTestStruct_ 的 函数 。 在 我 们 
的 例子 中 ，ReleaseTestStruct_ 调用 free 来 释放 前 面 用 CreateTestStruct PK RCA AL AY N FF IR. 
输出 2-11 给 出 了 运行 CreateStruct 程序 的 结果 。 


输出 2-11 示例 程序 CreateStruct 


Contents of TestStruct 'ts' 
ts-»Val8: 40 
ts-»Vali16: -401 
ts-»Val32: 400002 
ts-»Val64: -4000000003 





2.5 字符 串 


x86 指令 集 包 含 了 很 多 条 指令 来 操纵 字符 串 。 按 x86 手册 的 说 法 ， 一 个 字符 串 就 是 由 字 
节 、 字 或 者 双 字 组 成 的 一 个 连续 序列 。 程 序 可 以 使 用 串 指 令 来 处 理 传 统 的 “ Hello, World” 
这 样 的 文本 串 ， 也 可 以 使 用 串 指 令 来 对 数组 或 者 内 存 块 里 的 元 素 进行 操作 。 在 这 一 节 中 ,我 
们 将 分 析 几 个 示例 程序 ， 学 习 如 何 使 用 x86 的 串 指 令 来 处 理 文本 串 和 整数 数组 。 


2.5.1 字符 计数 


一 节 要 学 习 的 第 一 个 示例 程序 名 叫 CountChars， 它 演示 的 是 如 何 使 用 lods ( Load 
String， 加 载 字 符 串 ) 指令 来 统计 某 个 字符 在 一 个 文本 串 中 的 出 现 次 数 。 清 单 2-30 和 清单 
2-31 分 别 给 出 了 这 个 程序 的 源 代码 。 


清单 2-30 CountChars.cpp 
#include "stdafx.h" 


extern "C" int CountChars (wchar t* s, wchar t c); 
int tmain(int argc, TCHAR* argv[]) 


wchar t c; 
wchar t* s; 


S = L"Four score and seven seconds ago, ..."; 

wprintf(L"\nTest string: %s\n", s); 

e m Ls": 

wprintf(L" SearchChar: %c Count: %d\n", c, CountChars (s, c)); 
c= LBS 

wprintf(L" SearchChar: %c Count: %d\n", c, CountChars (s, c)); 
ev Lary 


wprintf(L" SearchChar: Xc Count: %d\n", c, CountChars (s, c)); 
és EZ 
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wprintf(L" SearchChar: %c Count: %d\n", c, CountChars (s, c)); 


s = L"Red Green Blue Cyan Magenta Yellow"; 
wprintf(L"\nTest string: %s\n", s); 


c= Les 
wprintf(L" SearchChar: %c Count: %d\n", c, CountChars (s, c)); 
ce Lwe 
wprintf(L" SearchChar: %c Count: %d\n", c, CountChars (s, c)); 
c = L'0'; 
wprintf(L" SearchChar: %c Count: %d\n", c, CountChars (s, c)); 
ea L" 


wprintf(L" SearchChar: %c Count: %d\n", c, CountChars (s, c)); 


return 0; 


清单 2-31 CountChars_.asm 


.model flat,c 
.Code 


; extern "C" int CountChars (wchar t* s, wchar t c); 
; 
; 描述 : WCRTPCCUÓER 's' 中 的 出 现 次 数 
j 
; 返回 值 : FIF ct 的 出 现 次 数 
CountChars proc 
push ebp 
mov ebp,esp 


push esi 


; 加载 参 数 并 初始 化 计数 寄存 器 


mov esi, [ebp+8] ;esi = 's' 
mov cx, [ebp+12] ;CX = 'c' 
xor edx,edx ;edx = 出 现 次 数 
; 重复 循环 直到 扫描 完整 个 串 
9: lodsw ; 把 下 一 个 字符 加 载 到 ax 
or ax,ax ; 测试 是 否 结束 
jz GF ; 如 果 发 现 串 结束 则 跳 转 
Cmp ax,cx ; 测试 当前 字符 
jne GB ; 如 果 不 匹 配 则 跳 转 
inc edx ; 更 新 匹配 计数 
jmp GB 
@@: mov eax, edx ;eax = 字符 计数 
pop esi 
pop ebp 
ret 
CountChars endp 
end 


汇编 语言 函数 CountChars 接受 两 个 参数 : 文本 串 指针 s 和 要 搜索 的 字符 c。 两 个 
参数 都 使 用 了 wchar t 类 型 ， 意 味 着 文本 串 中 的 字符 和 要 搜索 的 字符 都 是 16 位 的 。 函 数 
CountChars_ 先 是 把 s 和 c 分别 加 载 到 ESI 和 CX 寄存 器 ， 然 后 把 EDX 初始 化 为 0， 以 便 可 
以 用 它 来 记录 字符 的 出 现 次 数 。 处 理 循环 中 使 用 了 lodsw (Load String Word， 加 载 字符 串 字 ) 
指令 来 读 每 个 文本 串 字 符 。 这 条 指令 把 ESI 指向 的 内 存 内 容 加 载 到 AX 寄存 器 ， 然 后 把 ESI 
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增加 2 以 指向 下 一 个 字符 。 函 数 使 用 or ax, ax 指令 来 测试 字符 串 的 结束 字符 ("\0')。 如 果 不 
是 串 结束 字符 ， 就 用 emp ax, cx 指令 来 比较 当前 的 文本 串 字 符 是 否 与 要 搜索 的 字符 相同 。 如 
果 检 测 到 匹配 ， 那 么 就 把 出 现 次 数 递增 一 。 重 复 这 个 过 程 ， 直 到 遇 到 串 结束 字符 。 在 扫描 文 
本 串 之 后 ， 把 最 终 的 出 现 次 数 移动 到 EAX 寄存 器 ， 并 返回 给 调用 者 。 输 出 2-12 给 出 了 执行 
这 个 程序 的 结果 。 


输出 2-12 ”示例 程序 CountChars 


Test string: Four score and seven seconds ago, ... 
SearchChar: s Count: 4 
SearchChar: F Count: 1 
SearchChar: o Count: 4 
SearchChar: z Count: O 


Test string: Red Green Blue Cyan Magenta Yellow 
SearchChar: e Count: 6 
SearchChar: w Count: 1 
SearchChar: Q Count: O 
SearchChar: 1 Count: 3 





如 果 要 把 这 个 例子 改写 为 处 理 char 类 型 ， 而 不 是 wchar t, ARIA, RJE lodsw 
指令 换 为 lodsb (Load String Byte， 加 载 字 符 串 字 节 ) 指令 即 可 。 男 外 ， 应 该 使 用 AL 而 不 是 
AX 寄存 器 。x86 串 指 令 的 最 后 一 个 助 记 符 总 是 用 来 表示 要 处 理 的 操作 数 的 大 小 。 


2.5.2 ”字符 串 拼 接 


把 两 个 文本 串 拼 接 在 一 起 是 很 多 程序 经 常 要 执行 的 操作 。 在 Visual C++ 应 用 程序 中 ， 
可 以 使 用 库 孙 数 strcat, strcat s、wcscat 和 wcscat t 来 拼接 两 个 字符 串 。 这 些 函 数 的 一 个 
不 足 之 处 是 它们 只 支持 一 个 源 串 ， 如 果 要 把 多 个 串 拼 接 在 一 起 ， 就 需要 多 次 调用 这 些 函 数 。 
这 一 节 的 示例 程序 命名 为 ConcatStrings， 演 示 如 何 用 scas (Scan String， 扫 描 字 符 串 ) 和 
movs (Move String， 移 动 字 符 串 ) 指令 拼接 多 个 字符 串 。 清 单 2-32 和 清单 2-33 分 别 给 出 了 
ConcatStrings.cpp 和 ConcatStrings .asm 文件 的 源 代 码 。 


清单 2-32 ConcatStrings.cpp 
#include "stdafx.h" 


extern "C" int ConcatStrings (wchar t* des, int des size, const wchar t* = 
const* src, int src n); 


int tmain(int argc, TCHAR* argv[]) 
printf("\nResults for ConcatStrings Wn"); 


// 目标 缓冲 区 足够 大 i 

wchar_t* srci[] = ( L"One ", L"Two ", L"Three 
int srci n = sizeof(srci) / sizeof(wchar t*); 
const int desi size = 64; 

wchar t desi[desi size]; 


"y Lb Four" }3 


int desi len = ConcatStrings (desi, desi size, srci, srci n); 

wchar t* desi temp = (*desi !- '\O') ? desi : L"<empty>"; 

wprintf(L" des len: Xd (Xd) des: Xs \n", desi len, wcslen(desi temp), = 
desi temp); 
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// 目标 缓冲 区 太 小 

wchar t* src2[] = ( L"Red ", L"Green ", L"Blue ", L"Yellow " }; 
int src2 n - sizeof(src2) / sizeof(wchar t*); 

const int des2 size - 16; 

wchar t des2[des2 size]; 


int des2 len - ConcatStrings (des2, des2 size, src2, src2 n); 

wchar t* des2 temp = (*des2 !- '\O') ? des2 : L"<empty>"; 

wprintf(L" des len: %d (Xd) des: %s Xn", des2 len, wcslen(des2 temp), = 
des2 temp); 


// 测试 空 的 串 

wchar t* src3[] = { L"Airplane ", L"Car ", L"", L"Truck ", L"Boat " J}; 
int src3 n - sizeof(src3) / sizeof(wchar t*); 

const int des3 size - 128; 

wchar t des3[des3 size]; 


int des3 len - ConcatStrings (des3, des3 size, src3, src3 n); 

wchar t* des3 temp = (*des3 !- '\O') ? des3 : L"<empty>"; 

wprintf(L" des len: Xd (Xd) des: Xs Xn", des3 len, wcslen(des3 temp), = 
des3 temp); 


return 0; 
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清单 2-33 ConcatStrings_.asm 


.model flat,c 
.code 


; extern "C" int ConcatStrings (wchar t* des, int des size, const wchar t* = 
const* src, int src n) 


; 描述 : 对 多 个 输入 的 字符 串 进行 拼接 


返回 值 : -1 mR 'des size' 无 效 
n >=0 拼接 好 的 串 的 长 度 


局 部 变量 : [ebp-4] 
[ebp-8] 


des index 
1 


ConcatStrings proc 


3 


push ebp 
mov ebp,esp 
sub esp,8 
push ebx 
push esi 
push edi 


确保 ‘des size' 有 效 
mov eax,-1 
mov ecx, [ebp+12] ;ecx = 'des size' 
cmp ecx,0 
jle Error 


; 进行 必要 的 初始 化 


XOT eax,eax 
mov ebx, [ebp+8] jebx = 'des' 
mov [ebx],ax ;*des = 'No' 
mov [ebp-4],eax ;des index = 0 
mov [ebp-8],eax sf = 0 
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; 重复 循环 ， 直 到 拼接 完成 


Lp1: mov eax, [ebp+16] ;eax = 'src' 
mov edx, [ebp-8] ;edx =i 
mov edi, [eax«edx*4] ;edi - src[i] 
mov esi,edi ;esi = src[i] 
; 计算 s[i] 的 长 度 
xor eax,eax 
mov ecx,-1 
repne scasw SÆI '\O' 
not ecx 
dec ecx jecx = len(src[i]) 


; 计算 des_index + src_len 
mov eax, [ebp-4] 
mov edx,eax 
add eax,ecx 


; des index + src len >=des size? 


cmp eax, [ebp+12] 
jge Done 


; 更 新 des index 
add [ebp-4],ecx 


jeax= des index 
;edx = des index temp 
;des index + len(src[i]) 


;des index «- len(src[i]) 


; 复制 src[i] €] &des[des index] (esi 已 经 包含 src[i]) 


X 


kp 


inc ecx ;ecx = len(src[i]) +1 
lea edi, [ebx+edx*2] jedi = &des[des index temp] 
rep movsw ;进行 字符 串 移 动 


; 更 新 i 并 重复 循环 ， 直 到 完成 


mov eax, [ebp-8] 


inc eax 

mov [ebp-8],eax ji++ 

cmp eax, [ebp+20] 

jl Lp1 jA i < srcn 则 跳 转 


; 返回 拼接 好 的 串 的 长 度 
Done: mov eax, [ebp-4] 
Error: pop edi 

pop esi 

pop ebx 

mov esp,ebp 

pop ebp 

ret 
ConcatStrings  endp 

end 


jeax = des index 


我 们 先 来 看 一 下 清单 2-32 中 的 ConcatStrings.cpp。 开 头 先 是 声明 了 汇编 语言 函数 
ConcatStrings _ ， 它 包含 四 个 参数 : des 是 存放 最 终 串 的 目标 缓冲 区 ，des_size 是 des 缓冲 区 
的 大 小 ，src 是 指 问 数 组 的 指针 ， 数 组 里 面包 含 了 要 拼接 的 文本 串 ， 文 本 串 的 个 数 是 由 sre n 
RABE. PRX ConcatStrings_ 的 返回 值 是 des 的 长 度 或 者 -1 (如 果 des size 小 于 等 于 0 )。 

_tmain 也 数 中 的 测试 代码 演示 了 如 何 调用 ConcatStrings_ 函 数 。 举 例 来 说 ， 如 果 src 指 
向 的 文本 串 数组 是 ("Red ", “Green”, "Blue", ABA des 中 的 最 终 串 就 是 “RedGreenBlue ”， 
前 提 是 des 的 大 小 足够 大 。 如 果 des 的 大 小 不 够 ， 那么 ConcatStrings_ 会 返回 部 分 拼接 的 字 
符 串 。 举 例 来 说 ， 如 果 des size 为 10， 那 么 得 到 的 最 终 串 就 是 “RedGreen”。 

清单 2-32 中 的 ConcatStrings_ 珊 数 序言 定义 了 两 个 局 部 变量 : des index 是 串 拷贝 在 
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des 中 的 偏 移 ,，i 是 当前 串 在 src 中 的 索引 。 在 检查 des size 的 有 效 性 之 后 ，ConcatStrings_ 
把 des 加 载 到 EBX 寄存 器 ， 并 把 缓存 初始 化 为 一 一 个 空 的 串 。 而 后 把 des_index 和 i 初始 化 为 
0。 随 后 的 指令 块 开始 了 拼接 循环 ， 把 字符 串 src[i] 的 指针 加 载 到 ESI 和 EDI 寄存 带 

接 下 来 使 用 repne scasw 和 其 他 几 条 指令 来 确定 src[i] 的 长 度 。 其 中 的 repne (Repeat 
String Operation While not Equal， 不 相等 时 重复 串 操 作 ) 是 一 种 指令 前 级 ， 当 条 件 ECX != 0 
&& EFLAGS.ZF == 0 为 真 时 反复 执行 一 条 串 指令 。 指 令 repne scasw ( Scan String Word, 1H 
描 字 符 串 字 ) 的 确切 操作 是 这 样 的 : 如 果 ECX 不 为 0，scasw 指令 把 EDI 所 指向 的 串 字符 与 
AX 寄存 器 的 内 容 做 比较 ， 并 根据 比较 结果 设置 状态 标志 。 然 后 自动 把 EDI 寄存 器 递增 2， 
以 指向 下 一 个 字符 ， 并 把 ECX 递减 1。 这 样 的 串 处 理 操作 被 反复 执行 ， 只 要 前 面 提 到 的 测 
试 条 件 保持 为 真 ; 不 然 的 话 ， 就 结束 循环 。 

在 执行 repne scasw 指令 之 前 ，ECX 寄存 器 被 初始 化 为 -1。 在 完成 这 条 指令 时 ，ECX 
中 包含 的 是 - (L+2 )， 其 中 工 代表 的 是 字符 串 sreli] 的 实际 长 度 。L 的 值 可 以 这 样 计 算 : 先 
执行 not ecx (One's Complement Negation, 1 取 反 )， 再 dec ECX (Decrement by 1， 递 减 1), 
这 等 价 于 把 - (L+2 ) 取 反 再 减 去 2。( 这 里 描述 的 计算 字符 串 长 度 的 方法 是 很 著名 的 x86 编 
程 技巧 。) 

在 继续 讲解 之 前 ， 有 必要 指出 Visual C++ 的 运行 时 环境 假定 EFLAGS.DF 总 是 被 清 

从 的 。 如 果 某 个 汇编 语言 函数 因为 要 对 某 个 字符 串 做 自动 递减 操作 而 设置 了 EFLAGS. 
DF， 那 么 在 返回 到 调用 者 或 者 调用 其 他 库 函 数 之 前 ， 必 须 清除 这 个 标志 。 后 面 的 示例 程序 
ReverseArray 更 详细 地 讨论 了 这 个 问题 。 

在 计算 好 len(src[i]) 之 后 ， 要 做 个 检查 ， 以 确保 sreli] 可 以 放 到 目标 缓冲 区 。 如 果 des_ 
index + len(src[i]) 大 于 等 于 des_size， 那 么 这 个 函数 就 终止 执行 。 否 则 ，len(src[i]) 被 累加 到 
des_index， 再 使 用 rep movsw ( Repeat Move String Word， 重 复 移 动 字 符 串 字 ) 指令 把 sreli] 
eel a ae 中 的 合适 位 置 。 

令 rep movsw 根据 ECX 寄存 器 中 指定 的 长 度 ， 把 ESI 指 向 的 串 复 制 到 EDI 指 向 的 
内 存 位 置 。 在 执行 串 复 制 前 ， 执 行 了 一 条 inc ecx 指令 ， 目 的 是 确保 串 结束 字符 \0' 也 被 复 
制 到 des。 初 始 化 EDI 寄存 器 到 des 中 的 正确 位 置 的 方法 是 使 用 lea edi, [ebx+edx*2] ( Load 
Effective Address， 加 载 有 效 地 址 ) 指令 计算 源 操 作 数 的 地 址 。 之 所 以 可 以 这 样 使 用 lea 指令 
是 因为 EBX 指向 的 是 des 的 开始 ，EDX 中 包含 的 是 des index 与 len(src[i]) 累加 之 前 的 值 。 
在 复制 串 之 后 ， 更 新 变量 i 的 值 ， 如 果 它 小 于 src_ n， 那 么 就 重复 拼接 循环 。 在 完成 拼接 操 
作 之 后 ， 把 des_index 加 载 到 EAX 寄存 需 ， 它 就 是 des 中 的 最 终 串 的 长 度 。 输 出 2-13 是 执 
行 ConcatStrings 程序 的 结果 。 


输出 2-13 示例 程序 ConcatStrings 


Results for ConcatStrings 
des len: 18 (18) des: One Two Three Four 
des len: 15 (15) des: Red Green Blue 
des len: 24 (24) des: Airplane Car Truck Boat 





2.5.8 ”比较 数组 


正如 这 一 节 开 头 所 说 的 ,x86 的 串 指令 也 可 以 用 来 处 理 内 存 块 。 下 面 将 讨论 的 
CompareArrays 程序 演示 的 就 是 使 用 cmps ( Compare String Operands ， 上 比较 串 操 作 数 ) 指令 来 
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比较 两 个 数组 的 元 素 。 清 单 2-34 和 清单 2-35 分 别 给 出 了 这 个 程序 的 C++ 和 汇编 语言 源 代码 。 


清单 2-34 CompareArrays.cpp 





#include "stdafx.h" 
#include «stdlib.h» 


extern "C" int CompareArrays (const int* x, const int* y, int n); 


int tmain(int argc, _TCHAR* argv[]) 


{ 
const int n = 21; 
int x[n], y[n]; 
int result; 
// 初始 化 测试 数组 
srand(11); 
for (int i = 0; i < n; ie) 
x[i] = y[i] = rand() % 1000; 
printf("\nResults for CompareArrays\n"); 
// 使 用 无 效 的 'n' 进行 测试 
result = CompareArrays (x, y, -n); 
printf(" Test #1 - expected: 43d actual: %3d\n", -1, result); 
// 测试 第 一 个 元 素 不 匹配 的 情况 
x[0] += 1; 
result = CompareArrays (x, y, n); 
x[0] -= 1; 
printf(" Test #2 - expected: %3d actual: %3d\n", 0, result); 
// 测试 中 间 元 素 不 匹配 的 情况 
y[n / 2] -= 2; 
result = CompareArrays (x, y, n); 
y[n / 2] += 2; 
printf(" Test #3 - expected: %3d actual: %3d\n", n / 2, result); 
// 测试 最 后 一 个 元 素 不 匹配 的 情况 
x[n - 4] *= 3; 
result = CompareArrays (x, y, n); 
x[n - 1] /=3; 
printf(" Test #4 - expected: %3d actual: %3d\n", n - 1, result); 
// 测试 两 个 数组 完全 相同 的 情况 
result = CompareArrays (x, y, n); 
printf(" Test #5 - expected: 43d actual: %3d\n", n, result); 
return 0; 
} 





清单 2-35 CompareArrays_.asm 





.model flat,c 
.code 


; extern "C" int CompareArrays (const int* x, const int* y, int n) 
D 


; 描述 : 逐一 比较 两 个 整数 数组 中 的 元 素 


返回 值 : -1 n 的 值 无 效 
0 <= i < n 第 一 个 不 匹配 元 素 的 索引 
n 所 有 元 素 匹 配 


vs vs ve vs 
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CompareArrays proc 


push ebp 
mov ebp,esp 
push esi 
push edi 
; 加载 参数 并 验证 “nm' 
mov eax,-1 ;无 效 的 'n' 返回 码 
mov esi,[ebp+8] sesi = yE 
mov edi, [ebp+12] jedi = 'y' 
mov ecx, [ebp+16] ee = "mn' 
test ecx,ecx 
jle GF ; 若 'n' <= 0 则 跳 转 
mov eax,ecx ;eax = 'n 
; 比较 数组 
Tepe cmpsd 
je GF ;数组 相等 


; 计算 不 匹配 元 素 的 索引 号 
sub eax,ecx 


dec eax ;eax = 不 匹配 的 索引 


@@: pop edi 
pop esi 
pop ebp 
ret 
CompareArrays endp 
end 





清单 2-34 中 的 汇编 语言 函数 CompareArrays_ 比 较 两 个 整数 数组 的 元 素 ， 并 返回 第 一 
个 不 匹配 元 素 的 索引 。 如 果 两 个 数组 是 完全 相同 的 ， 那 么 返回 的 是 元 素 的 个 数 。 返 回 -1 代 
表 错 误 情况 。 这 个 函数 把 指向 数组 x 和 y 的 指针 分 别 加 载 到 ESI 和 EDI 寄存 器 。 然 后 把 元 
素 的 个 数 加 载 到 ECX 寄存 器 ， 并 使 用 test ecx, ecx 指令 来 检查 它 的 有 效 性 。test ( Logical 
Compare, BIERE) 指令 会 对 两 个 操作 数 执 行 按 位 与 (AND) 操作 ， 并 根据 结果 设置 状 
态 标 志 EFLAGS.ZF, EFLAGS.SF 和 EFLAGS.PF ( EFLAGS.CF 和 EFLAGS.OF 被 清 零 )。 
AND 操作 的 结果 是 被 丢弃 的 。 编 写 汇 编程 序 时 ， 常 常 使 用 test 指令 来 替代 cmp 指令 ， 特 别 
是 测试 前 面 的 计算 结果 的 时 候 ， 它 具有 指令 编码 更 短 的 好 处 。 

我 们 使 用 了 repe cmpsd ( Compare String Doubleword， 比 较 字 符 串 双 字 ) 指令 来 比较 
两 个 数组 。 这 条 指令 比较 ESI 和 EDI 指向 的 两 个 双 字 ， 并 根据 结果 设置 状态 标志 。 每 一 次 
比较 操作 之 后 ESI 和 EDI 寄存 器 会 被 自动 递增 (因为 做 的 是 双 字 比较 ， 所 以 递增 4 )。 前 绥 
repe ( Repeat While Equal， 相 等 时 重复 ) 告诉 处 理 需 重复 执行 cmpsw 指令 ， 只 要 条 件 ECX 
!=0 && EFLAGS.ZF == 1 为 真 。 当 双 字 比较 完成 时 ， 程 序 会 在 数组 相同 (EAX 已 经 包含 了 
正确 的 返回 值 ) 时 执行 条 件 跳 转 ， 不 同时 会 计算 出 第 一 个 不 匹配 元 素 的 索引 。 输 出 2-14 显 
示 了 执行 CompareArrays 的 结果 。 


输出 2-14 示例 程序 CompareArrays 


Results for CompareArrays 
Test #1 - expected: -1 actual: -1 
Test #2 - expected: 0 actual: 0 
Test #3 - expected: 10 actual: 10 
Test #4 - expected: 20 actual: 20 
Test #5 - expected: 21 actual: 21 
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25.4 反 转 数组 

这 一 节 的 最 后 一 个 示例 程序 叫 ReverseArray， 演 示 的 是 如 何 使 用 lods ( Load String, Jill 
载 字 符 串 ) 指令 反 转 (OB) 一 个 数组 的 元 素 。 与 前 面 的 例子 不 同 ，ReverseArray 从 最 后 一 
个 元 素 到 第 一 个 元 素 做 反 向 扫描 ， 这 需要 修改 控制 标志 EFLAGS.DF。 清 单 2-36 和 清单 2-37 
分 别 给 出 了 ReverseArray.cpp 和 ReverseArray_.asm 文件 的 源 代码 。 


清单 2-36 ReverseArray.cpp 





#include "stdafx.h" 
#include «stdlib.h» 


extern "C" void ReverseArray (int* y, const int* x, int n); 
int tmain(int argc, _TCHAR* argv[]) 


{ 
const int n = 21; 
int x[n], y[n]; 
// 初始 化 测试 数组 
srand(31); 
for (int i = 0; i < nj i++) 

x[i] = rand() % 1000; 
ReverseArray (y, x, n); 
printf("\nResults for ReverseArrayWM"); 
for (int i = 0; i < n; i++) 

{ 
printf(" i: %5d y: %5d x: %5d\n", i, y[i], x[i]); 
if (x[i] != y[n - 1 - i]) 
printf(" Compare failed!\n"); 
return 0; 
J 


清单 2-37 ReverseArray .asm 


.model flat,c 
.code 


; extern "C" void ReverseArray (int* y, const int* x, int n); 
; 描述 : 把 数组 x 的 元 素 以 相反 顺序 保存 到 数组 y 


无 效 的 'n' 
成 功 


ReverseArray proc 
push ebp 
mov ebp,esp 
push esi 
push edi 


> 加 载 参数 ， 确 保 'n' 是 有 效 的 


XOr eax,eax ;错误 返回 码 


> 返回 值 : 0 
E 1 


mov edi, [ebp+8] sedi = 'y' 
mov esi,[ebp«12] jesi = 'x' 
mov ecx, [ebp«16] ;ecx 

test ecx,ecx 


in 
jle Error ;车 'n <= 0 则 跳 转 
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; 初始 化 指向 x[n - 1] 的 指针 ， 设 置 方向 标志 


lea esi, [esi+ecx*4-4] jesi = &[n - 1] 
pushfd ;保存 当前 方向 标志 
std ;EFLAGS.DF = 1 


; 反复 循环 直到 完成 数组 反 转 


QQ: lodsd jeax = *x-- 
mov [edi],eax ;*y = eax 
add edi,4 sytt 
dec ecx pies 
jnz @B 
popfd ;恢复 方向 标志 
mov eax,1 ;设置 成 功 返 回 码 

Error: pop edi 
pop esi 
pop ebp 
ret 

ReverseArray endp 
end 





清单 2-36 中 的 ReverseArray_ 了 哺 数 以 反 向 顺序 把 源 数 组 的 元 素 复 制 到 目标 数组 。 这 个 
函数 需要 三 个 参数 : 指向 目标 数组 的 指针 y、 指 向 源 数组 的 指针 x 和 元 素 个 数 n。 参 数值 分 
别 被 加 载 到 EDI、ESI 和 ECX 寄存 器 。 

为 了 能 颠倒 源 数组 中 的 元 素 ， 需 要 找到 最 后 一 个 数组 元 素 x[n-1] 的 地 址 ， 这 是 通过 指 
令 lea esi, [esi*ecx*4-4] 而 实现 的 ， 这 条 指令 计算 源 操作 数 的 有 效 地 址 (也 就 是 执行 括号 中 
指定 的 算术 运算 )。 然 后 使 用 pushfd (Push EFLAGS Register onto the Stack, 将 EFLAGS 寄 
存 器 压 到 栈 上 ) 指令 把 EFLAGS.DF 的 当前 状态 保存 到 栈 上 ， 其 后 是 std (Set Direction Flag, 
设置 方向 标志 ) 指令 。 把 数组 元 素 从 x 复制 到 y 的 过 程 是 很 直截了当 的 。 先 使 用 lodsd (Load 
String Doubleword) 指令 从 x 加载 一 个 元 素 到 EAX 并 递减 ESI， 然 后 把 这 个 值 保存 到 EDI 
指向 的 y 的 目标 元 素 。 指 令 add edi, 4 把 EDI 指 向 y 数 组 的 下 一 个 元 素 位 置 。 而 后 再 递减 
ECX 寄存 器 ， 再 次 循环 ， 直 到 完成 整个 反 转 操作 。 

在 反 转 数组 循环 之 后 ， 用 popfd ( Pop Stack into EFLAGS Register， 从 栈 中 弹出 到 
EFLAGS 寄存 器 ) 指令 来 恢复 EFLAGS.DF 的 原来 状态 。 读 者 看 到 这 里 可 能 要 问 一 个 问题 : 
既然 Visual C++ 运行 时 环境 总 是 认为 EFLAGS.DF 是 清 零 的 ， 那 么 在 ReverseArray_ phi 
中 为 什么 不 用 cld (Clear Direction Flag， 清 除 方向 标志 ) 指令 来 恢复 EFLAGS.DF， 而 是 
使 用 pushfd/popfd 48 4 WE? 对 的 ，Visual C++ 运行 时 环境 确实 是 假定 EFLAGS.DF 总 是 清 
零 的 ， 但 是 当 程序 执行 时 ， 它 是 无 法 强制 这 个 策略 的 。 因 为 ReverseArray 函数 被 声明 为 
公共 函数 ， 所 以 它 可 能 被 男 一 个 违反 EFLAGS.DF 状态 法 则 的 汇编 语言 函数 所 调用 。 如 果 
ReverseArray PAA EL TERE DLL 中 , 那么 它 便 可 能 被 使 用 不 同方 向 标志 规范 的 某 个 函 
数 所 调用 。 因 此 ， 使 用 pushfd/popfd 指令 来 保存 EFLAGS.DF 的 状态 是 最 稳妥 的 。 输 出 2-15 
给 出 了 执行 ReverseArray 程序 的 结果 。 


输出 2-15 示例 程序 ReverseArray 


Results for ReverseArray 
it O y: 409 x: 139 
is i y: 48 x: 240 
s 2 y: 981 x: 971 
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i: 3 y: 643 x: 503 
ii 4 y: 102 x: 927 
is 5 y: 114 x: 453 
it 6 y: 366 x: 547 
is 7 y: 697 x 76 
i: 8 y: 87 x: 789 
is 9 y: 466 x: 862 
i; 10 y: 268 x: 268 
2i 11 y: 862 x: 466 
i: 12 y: 789 x: 87 
i: 13 y: 76 x: 697 
i: 14 y: 547 x: 366 
i: 15 y: 453 x: 114 
it 16 y: 927 xs 102 
is 17 y: 503 x: 643 
i: 18 y: 971 x: 981 
ii 19 y: 240 x: 48 
1i: 20 y: 139 x: 409 
2.0 m 


A 

这 一 童 介绍 了 很 多 x86 汇编 语言 编程 的 内 容 ， 包 括 x86 汇编 语言 函数 的 基础 知识 、 调 用 
约定 、 整 数 算术 、 内 存 寻 址 模式 和 条 件 码 等 关键 主题 ， 以 及 如 何 使 用 x86 汇编 语言 来 完成 常 
见 的 编程 任务 ， 比 如 操作 数组 、 结 构 体 和 文本 串 。 

如 果 你 是 第 一 次 游历 汇编 语言 编程 的 世界 ， 读 到 这 里 可 能 感到 有 点 不 知 所 措 ， 不 过 请 
别 担心 。 学 习 一 门 新 编程 语言 的 经 验 就 是 从 编写 简单 的 程序 开始 ， 然 后 逐渐 学 习 这 门 语言 的 
复杂 内 容 ， 这 本 书 的 示例 程序 就 是 按 这 个 目标 来 组 织 的 ， 所 有 的 汇编 语言 函数 都 比较 短 而 且 
依赖 很 少 ， 目 的 是 方便 大 家 动手 练习 和 试验 。 我 们 常常 用 简单 的 控制 台 程序 以 避免 过 高 的 复 
杂 度 。 

第 1 章 和 第 2 章 解 释 了 x86-32 平台 编程 的 关键 要 素 和 执行 环境 。 接 下 来 ， 你 将 使 用 这 

[86] 些 知识 来 探索 x86 平台 的 其 他 宝藏 ， 比 如 ,第 3 章 和 第 4 章 将 介绍 x87 浮 点 单元 。 


| 第 3 章 


Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


x87 浮 点 单元 





x86 平台 包含 可 以 执行 浮 点 算术 的 独立 执行 单元 一 一 x87 浮 点 单元 (FPU)。 其 通过 专用 
人 硬件 实现 基本 的 浮 点 运算 , 包括 加 、 减 、 乘 、 除 各 类 计算 ， 并 内 建 了 平方 根 、 三 角 函 数 和 对 
数 指令 以 进行 复杂 的 数学 运算 。x87 FPU 支持 多 种 数据 类 型 包括 单 双 精 度 浮 点 数 、 有 符号 
整 型 数 和 组 合 BCD 码 。 

本 章 将 详细 探讨 x87 FPU 架构 ， 读 者 可 以 了 解 到 x87 FPU 的 主要 组 件 : 数据 寄存 器 、 
控制 寄存 器 以 及 状态 寄存 器 ， 还 将 学 习 x87 用 来 表示 浮 点 数 和 某 些 特殊 值 的 二 进 制 编码 方 
式 。 理 解 这 些 编码 方案 可 以 帮助 软件 工程 师 在 大 量 使 用 浮 点 值 的 情景 中 ,减少 可 能 的 浮 点 错 
误 和 提高 算法 的 性 能 。 本 章 结 束 部 分 介绍 了 x87 FPU 的 指令 集 。 


3.1 x87 FPU 核心 架构 

总 体 来 说 ，x87 FPU 包含 8 个 80 位 宽 的 数据 寄存 器 和 一 组 专用 寄存 器 。 专 用 寄存 器 组 
包含 一 个 控制 寄存 器 和 一 个 状态 寄存 器 ， 程 序 员 可 以 用 它们 来 配置 x87 FPU 以 及 检测 其 当前 
状态 。 另 外 ， 专 用 寄存 器 组 还 包括 若干 辅助 寄存 器 ， 主 要 由 操作 系统 和 浮 点 异常 处 理 程序 使 
用 。 图 3-1 描述 了 x87 FPU 的 主要 部 件 。 





数据 寄存 器 专用 寄存 器 


ik: S 一 一 符号 位 。 
图 3-1 x87 FPU 核心 架构 


3.1.1 数据 寄存 器 


x87 FPU 的 八 个 数据 寄存 器 是 以 栈 结构 组 织 的 ， 所 有 计算 指令 都 相对 栈 顶 进行 隐 式 或 显 
示 执 行 。x87 FPU 寄存 器 栈 可 以 压 人 或 弹出 各 种 数据 类 型 ， 包 括 有 符号 整 型 Cle 位 、32 位 
和 64 位 )、 浮 点 型 (32 位 、64 位 和 80 位 ) 和 80 位 组 合 BCD 码 。 不 可 以 在 x87 FPU 数据 寄 
ff tir Al x86-32 通用 寄存 器 间 直 接 传输 数据 ， 必 须 通过 中 间 内 存 来 执行 此 类 操作 。 应 当 注意 
的 是 ， 这 类 数据 传输 和 通常 的 x86 数据 传输 不 同 。 因 为 x87 FPU 指令 集 不 支持 将 操作 数 直 
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64 IF 





接 入 栈 ， 除 了 极 少 范围 的 一 部 分 常用 的 数值 外 ,计算 用 的 常数 也 必须 通过 内 存 操作 数 把 数据 
加 载 到 x87 FPU 寄存 器 栈 中 。 

x87 FPU 的 数值 格式 、 人 处 理 算法 和 异常 信号 处 理 都 遵从 IEEE 的 二 进 制 浮 点 运算 标准 
(IEEE 754-1985 )。 在 内 部 处 理 时 ，x87 FPU 使 用 80 位 的 扩展 双 精 度 浮 点 数 格 式 。 加 载 和 保存 
x87 FPU 寄存 器 值 时 ， 会 自动 进行 内 部 格式 和 目标 格式 的 转换 .包括 整 型 、 浮 点 和 BCD 格式 。 


3.1.2. x87 FPU 专用 寄存 器 
x87 FPU 包含 几 个 专用 寄存 器 ， 主 要 用 来 配置 FPU 、 检 测 状态 以 及 协助 进行 异常 处 理 。 
如 图 3-2 所 示 , x87 FPU 控制 寄存 器 允许 一 个 任务 启用 或 禁用 各 种 浮 点 处 理 选 项 ， 包 括 异 常 、 
伟人 方法 精度 等 级 。 与 x86 其 他 大 多 数控 制 寄 存 器 不 同 ， 修 改 x87 FPU 控制 寄存 器 不 需要 
提升 执行 特权 ， 应 用 程序 可 以 根据 算法 的 具体 处 理 要 求 来 配置 x87 FPU 控制 寄存 器 。 表 3-1 
[88] 描述 了 x87 FPU 控制 寄存 器 中 各 个 位 域 的 含义 。 


IS 14 13 12 1 l0 9 8 这 6 5 4 3 2 1 0 
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Al 3-2 x87 FPU 控制 寄存 器 
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表 3-1 x87 FPU 控制 寄存 器 位 域 

位 位 域名 称 作用 描述 
IM 无 效 操作 掩 码 无 效 操作 异常 掩 码 位 ; 值 为 1 时 禁用 该 异常 
DM 不 合 规格 操作 数 撩 码 不 合 规格 操作 数 异常 掩 码 位 ; 值 为 1 时 禁用 该 异常 
ZM 除 零 掩 码 除数 为 0 时 异常 掩 码 位 ; 值 为 1 时 禁用 该 异常 

向 上 溢出 掩 码 向 上 溢出 异常 掩 码 位 ; 值 为 1 时 禁用 该 异常 
UM 向 下 溢出 掩 码 向 下 溢出 异常 掩 码 位 ; 值 为 1 时 禁用 该 异常 
PM 精度 掩 码 精度 异常 掩 码 位 ; 值 为 1 时 禁用 该 异常 

’ T 指定 基本 浮 点 运算 的 精度 。 有 效 选项 包括 单 精 度 ( 00b)、 双 精度 ( 10b) 
IBERIA 以 及 双 扩展 精度 (11b) 
指定 对 x87 FPU 计算 结果 的 舍 人 方式 。 有 效 选项 包括 就 近 舍 人 (00b), 
Hof A (0lb)、 朝 +ce 舍 人 ( 10b) AH 0 舍 人 或 截断 ( 11b) 
允许 处 理 无 穷 大 值 是 为 了 兼容 80287 数学 协 处 理 器 ， 现 在 的 应 用 软件 可 
以 忽略 此 标志 


o 
= 


RC 舍 人 控制 位 域 


x< 


无 穷 大 控制 位 


在 x87 FPU 控制 寄存 器 的 异常 掩 码 位 上 置 1 只 禁止 处 理 器 异常 产生 ， 其 状态 寄存 器 总 
是 记录 发 生 的 任何 x87 FPU 异常 情况 。 应 用 程序 不 可 以 直接 访问 指定 x87 FPU 异常 处 理 函 
数 的 内 部 处 理 器 表 。 不 过 ， 大 多 数 的 C 和 C++ 编译 器 都 提供 了 库 函 数 来 允许 应 用 程序 指定 
[89] 一 个 回调 函数 ， 当 有 x87 FPU 异常 发 生 时 ， 这 个 回调 函数 会 被 调用 。 
x87 FPU 状态 寄存 器 包含 一 个 16 位 的 值 ， 让 应 用 程序 通过 这 些 位 来 检查 算术 运算 的 结 
R, 判断 是 否 发 生 了 异常 ， 或 者 查询 栈 的 状态 信息 。 图 3-3 显示 了 x87 FPU 状态 寄存 器 各 个 
位 域 的 结构 ， 表 3-2 介绍 了 每 个 状态 寄存 器 位 域 的 含义 。 
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图 3-3 x87 FPU 状态 寄存 器 
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表 3-2 x87 FPU 状态 寄存 器 位 域 












































位 位 域名 称 作用 描述 

IE 无 效 操作 异常 的 状态 位 ; 指令 使 用 了 无 效 操作 数 时 置 为 1 

DE 不 合 规格 操作 数 异常 的 状态 位 ; 指令 使 用 了 非 正常 操作 数 时 置 为 1 

ZE 除 0 异常 除 0 异常 的 状态 位 ; 当 指令 尝试 除 0 时 置 为 1 

cen der 向 上 溢出 异常 的 状态 位 ; 如 果 运 算 结 果 超 出 了 目标 操作 数 允 许 的 最 大 

OE 向 上 溢出 异常 tei es 
值 时 曾 为 1 

UE 向 下 溢出 异常 ae 如 果 运 算 结 果 小 于 目标 操作 数 允 许 的 最 小 值 

vh 精度 异常 精度 蜡 常 的 状态 位 ; 如 果 运 算 结果 不 能 用 二 进 制 精 确 表示 日 标 操 作 数 
的 格式 时 壮 为 1 

T 栈 错误 值 为 1 时 表明 发 生 了 一 个 栈 错误 (无 效 操作 异常 标志 也 被 置 为 1); 条 
件 码 位 C1 表明 栈 错误 的 类 型 : 向 下 溢出 (C1=0 ) 或 者 向 上 溢出 (C1=1) 

ES 错误 摘要 状态 表明 至 少 设置 了 一 个 没有 解除 掩 码 的 异常 位 

CO x87 FPU 状态 标志 ( 详 见 后 面 的 描述 ) 

CI 条 件 码 标志 1 x87 FPU 状态 标志 ( 详 见 后 面 的 描述 ) 

C2 条 件 码 标志 2 x87 FPU 状态 标志 ( 详 见 后 面 的 描述 ) 

TOS 栈 硕 寄存 器 三 个 位 组 合用 来 表明 当前 的 栈 顶 寄存 器 

ies 条 件 码 标志 3 x87 FPU 状态 标志 ( 详 见 后 面 的 描述 ) 

B ES 标志 的 副本 ， 为 了 兼容 8087; 现在 的 应 用 软件 可 以 忽略 此 标志 





当 x87 FPU 指令 异常 产生 浮 点 错误 时 ， 其 状态 寄存 器 中 的 异常 位 将 被 置 位 。 这 些 标志 
无 法 由 处 理 器 自动 清除 ， 必 须 使 用 fclex 或 者 fnclex (清除 异常 ) 指令 手动 复位 。 条 件 码 标 
志 显 示 了 浮 点 计算 和 比较 操作 的 结果 ， 有 些 指令 也 用 它们 来 指示 错误 和 额外 的 状态 信息 。 没 
有 办 法 法 直接 测试 x87 FPU 状态 寄存 器 (也 被 称 为 x87 FPU 状态 字 )， 必 须 使 用 fstsw 或 者 
fnstsw (存储 x87 FPU 状态 字 ) 指令 将 其 复制 到 内 存 或 者 寄存 器 AX 中 。 

x87 FPU 包含 一 个 16 位 的 标签 字 寄 存 器 (tag word register)， 用 来 指示 每 个 80 位 数据 
寄存 器 的 内 容 。 应 用 程序 或 者 异常 处 理 程序 都 可 以 检测 标签 字 。 常 见 的 浮 点 寄存 器 标签 状态 
包括 “ 值 有 效 ”(00b)、“ 值 为 0”(01b)、“ 特 殊 值 ”( 10b) 和 “ 值 为 空 "( 11b)。 其 中 ， 特 殊 的 
标签 状态 包括 无 效 格式 、 不 合 规格 ( denormal) 和 无 穷 大 ， 在 后 面 的 章节 中 会 描述 这 些 状 态 
的 含义 。 

另外 ，x87 FPU 还 包含 三 个 主要 由 操作 系统 和 异常 处 理 程序 使 用 的 寄存 器 :“ 最 后 一 条 
指令 指针 ”“ 最 后 一 个 数据 指针 ”和 “最 后 一 条 指令 操作 码 ” 寄 存 器 ， 它 们 可 以 让 异常 处 理 
程序 去 探知 触发 异常 指令 的 附加 信息 。“ 最 后 一 条 指令 指针 ”和 “最 后 一 个 数据 指针 ”寄存 
器 的 大 小 取决 于 当前 处 理 器 的 执行 模式 是 x86-32 还 是 x86-64。“ 最 后 一 条 指令 操作 码 ” 寄 
存 器 是 11 位 ， 该 寄存 器 包含 了 执行 过 的 最 后 一 条 非 控 制 类 x87 FPU 指令 的 低位 操作 码 信息 
(一 个 x87 FPU 指令 操作 码 的 高 5 位 不 被 保存 ， 因 为 这 些 位 始终 是 11011b ) 。 


3.1.3 x87 FPU 操作 数 和 编码 


x87 FPU 指令 集 支 持 三 种 类 型 的 内 存 操 作 数 : 有 符号 整 型 数 、 浮 点 数 和 组 合 (压缩 ) 
BCD 人 码 。 可 用 的 有 符号 整 型 数 包括 字 ( 16 位 )、 双 字 (32 位 ) 和 四 字 ( 64 位 )。 支 持 的 浮 点 
数 类 型 包括 : 单 精度 (32 位 )、 双 精度 C64 位 ) 和 扩展 双 精 度 (80 位 )。 许 多 C 和 C++ 编译 
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[o1] 器 使 用 单 精 度 和 双 精 度 操作 数 类 型 来 分 别 实现 float 和 double 值 ， 唯 独 组 合 BCD 人 码 是 80 位 
Ko 在 第 1 音 中 描述 了 x87 FPU 指令 可 以 使 用 任何 一 种 寻 址 模式 ， 以 指定 在 内 存 中 的 操作 
数 ， 图 3-4 描述 了 所 有 有 效 的 x87 内 存 操作 数 类 型 的 结构 组 成 。 
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图 3-4 x87 内 存 操作 数 类 型 
x87 FPU 使 用 三 个 不 同位 域 对 浮 点 数 进行 编码 : 有 效 数 位 域 、 指 数位 域 和 符号 位 位 域 。 
有 效 数 位 域 表 示 数 字 的 有 效 数 (或 小 数 部 分 )。 指 数位 域 指 定 了 在 有 效 数 中 二 进 制 小 数 点 的 
实际 位 置 ， 它 决定 了 数据 的 表示 范围 。 符 号 位 指示 了 数字 是 正 (s=0 ) 还 是 负 (s=1 )。 表 3-3 
列 出 了 用 来 编码 单 精度 、 双 精度 、 扩 展 双 精度 浮 点 数 的 各 种 范围 参数 。 


表 3-3 浮 点 范围 参数 


参数 单 精度 双 精 度 扩展 双 精 度 
总 位 宽 32 64 80 
有 效 数 位 宽 23 52 63 
指数 位 宽 8 11 15 
符号 位 宽 1 1 1 
指数 校正 +127 +1023 +16383 


图 3-5 演示 了 一 个 十 进 制 数 转换 为 x87 FPU 兼容 浮 点 数 的 过 程 。 在 这 个 例子 中 ， 数 字 
237.8325 从 十 进 制 数 转 换 为 单 精 度 浮 点 数 。 整 个 过 程 中 ， 首 先 将 数字 从 基 值 10 转换 为 基 值 
2， 然 后 将 得 到 的 数 转换 为 二 进 制 科学 型 数 ， 在 符号 E 右 侧 的 值 是 二 进 制 指数 。 为 了 加 快 浮 
点 比较 运算 ， 合 适 的 编码 方式 是 用 校正 指数 蔡 代 真 实 的 指数 。 对 单 精度 浮 点 数 而 言 ， 校 正 值 
(bias) 是 +127。 把 真实 的 指数 加 上 校正 值 变 为 带 校正 指数 的 二 进 制 科学 型 。 本 例 中 ， 如 网 
3-5 所 示 ，111b 加 上 1111111b (+127 )， 得 到 带 校正 指数 的 二 进 制 科学 型 10000110b。 
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110110111D1 E, 10000110 n] 带 校 正 指数 的 二 进 制 科学 型 
0x436DD000 | 最 终 得 到 的 单 精度 编码 


图 3-5 单 精 度 浮 点 数 编码 过 程 








当 进 行 单 精度 或 者 双 精 度 浮 点 数 编码 时 ， 有 效 数 的 首位 数字 1 是 隐 含 的 ， 在 最 终 的 二 进 
制 数 中 没有 表示 出 来 。 而 扩展 双 精 度数 编码 时 包含 了 首位 数字 1。 删 除 首 位 数字 1 形成 规格 
化 有 效 数 后 ， 符 合 IEEE754 编码 的 三 个 位 域 就 完成 了 ， 如 表 3-4 所 示 。 表 中 位 域 从 左 到 右 以 
32 位 值 表示 为 0x436DD000， 这 就 是 237.8325 的 单 精度 浮 点 数 的 最 终 编码 形式 。 


表 3-4 1IEEE754 标准 位 域 
符号 位 校正 指数 规格 化 有 效 数 
0 10000110 11011011101000000000000 


针对 一 些 特定 条 件 下 的 计算 ，x87 FPU 的 编码 方案 中 还 保留 了 小 部 分 的 位 模式 集合 。 第 
一 组 特殊 值 包括 非 规格 化 数 。 如 之 前 的 编码 例子 ， 对 浮 点 数 的 标准 编码 中 ， 会 假定 有 效 数 的 
首位 数字 为 1。 这 种 方式 一 个 很 大 的 缺点 是 无 法 准确 表示 接近 于 0 的 数 。 在 这 些 情况 下 ，x87 
FPU 将 使 用 非 规格 化 格式 ， 使 得 可 以 以 比较 低 的 精度 编码 接近 于 0 的 数 (包括 正 数 和 负数 )。 
非 规格 化 很 少 发 生 ， 但 是 在 使 用 它们 的 时 候 ，x87 FPU 仍 能 正常 地 处 理 。 在 使 用 非 规格 化 数 
可 能 产生 问题 的 算法 中 ， 应 用 程序 可 以 先 对 浮 点 数 进行 测试 以 确定 其 非 规格 化 的 状态 ， 或 者 
也 可 以 配置 x87 FPU， 让 其 产生 一 个 向 下 溢出 或 非 规格 化 异常 ， 然 后 对 此 状况 进行 处 理 。 

特殊 值 的 另外 一 个 应 用 是 对 浮 点 数 0 的 编码 。x87 FPU 支持 两 种 不 同 的 浮 点 0 表示 方法 : 
正 0 (+0.0) 和 负 0(-0.0)。 负 0 可 以 在 算法 上 或 者 由 x87 FPU 舍 人 模式 产生 。 从 计算 角度 
来 看 ，x87 FPU 对 正 0 和 负 0 的 处 理 相 同 ， 程 序 员 不 必 考 虑 。 另 外 ，x87 FPU 也 包含 了 用 来 
测试 浮 点 数 符 号 位 的 指令 。 

x87 FPU 编码 方案 中 还 支持 正 无 穷 和 负 无穷 数 。 无 穷 数 是 在 一 些 特定 的 数值 算法 下 产生 
的 ， 如 向 上 溢出 或 者 除 0。 在 本 章 前 面 讨 论 过 ，x87 FPU 可 以 配置 为 在 向 上 溢出 或 者 当 程序 
试图 除 0 时 产生 异常 。 

最 后 一 种 特殊 值 类 型 被 称 作 Not a Number ( NaN)。NaN 数 在 浮 点 编码 中 不 是 一 个 有 效 
的 数字 。x87 FPU 定义 了 两 种 类 型 的 NaN 数 : 信号 (signaling) NaN (SNaN) 和 静默 (quiet) 
NaN ( QNaN)。SNaN 数 是 由 软件 产生 的 ，FPU 在 任何 算术 运算 中 都 不 会 产生 SNaN。 任何 
尝试 通过 指令 使 用 SNaN 数 的 行为 都 会 触发 无 效 操作 异常 ， 除 非 此 异常 被 屏蔽 了 。SNaN 数 
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x87 FPU 在 处 理 某 些 无 效 计算 产生 的 异常 时 ， 如 果 异 常 被 屏蔽 ， 会 使 用 QNaN 数 作为 缺 省 结 
果 。 比 如 ， 当 使 用 fsqrt 指令 对 负数 进行 开 方 时 ，x87 便 使 用 一 种 唯一 的 QNaN 编码 (我们 称 
之 为 未 定义 数 ) 作为 结果 。QNaN 数 也 可 由 程序 用 作 标志 算 法 特殊 错误 或 者 其 他 不 常见 的 数 
值 条 件 。 当 使 用 QNaN 数 作 为 操作 数 时 ， 程 序 将 继续 运行 而 不 产生 异常 。 

当 为 x87 FPU 或 者 其 他 浮 点 数 平台 开发 软件 时 ， 要 记 住 所 采用 的 编码 方案 只 是 实数 的 
近似 值 。 任 何 一 种 浮 点 数 编码 系统 都 无 法 使 用 有 限 的 位 数 来 表示 无 限 的 数 ， 这 导致 了 浮 点 侈 
入 误差 ， 将 影响 计算 结果 的 准确 性 。 此 外 ， 一 些 对 整数 和 实数 成 立 的 数学 属性 在 浮 点 数 上 不 
一 定 成 立 。 比 如 ， 浮 点 乘法 不 一 定 符合 结合 律 ， 如 (a*b)*c 可 能 不 等 于 a*(b*c)， 具 体 还 要 取 
决 于 a、b 和 cc 的 值 。 开 发 高 精度 浮 点 算法 的 程序 员 需 要 注意 这 些 问 题 。 


3.2 x87 FPU 指令 集 


接 下 来 的 章节 对 x87 FPU 指令 集 做 简要 概述 。 与 在 第 1 章 介绍 的 x86-32 指令 集 类 似 ， 
本 节 的 目的 是 使 读者 对 x87 FPU 指令 集 有 一 个 大 致 的 了 解 。 本 节 介 绍 的 每 条 x87 FPU 指令 
的 信息 (包括 有 效 操作 数 、 受 影响 的 条 件 码 和 控制 字 选 项 的 效果 ) 都 参照 了 AMD 和 Intel 公 
开发 行 的 参考 手册 。 这 些 手册 和 其 他 x87 FPU 的 文档 资源 都 列 在 附录 C 中 。 第 4 章 的 示例 
代码 将 演示 x87 FPU 指令 集 的 使 用 方法 。 

x87 FPU 指令 集 可 以 分 为 以 下 六 类 : 

e 数据 传输 

e 基本 运算 

e 数据 比较 

e HUE PRU 

e 常量 

e 控制 

在 接 下 来 的 指令 描述 中 ，ST(0) 表示 x87 FPU 寄存 器 堆栈 的 最 顶部 的 值 ，ST(i) 表示 从 
当前 堆栈 顶部 开始 的 第 i 个 寄存 器 。 大 多 数 的 x87 FPU 计算 指令 使 用 STO) 作为 隐 式 操作 
数 ， 而 STO) 必须 明确 指定 。 


3.2.1 数据 传输 


数据 传输 组 的 指令 用 来 把 数据 从 x87 FPU 寄存 器 栈 中 压 人 或 者 弹出 。x87 FPU 根据 操作 
数 的 数据 类 型 是 浮 点 、 整 型 或 压缩 BCD 值 使 用 不 同 的 指令 助 记 符 来 执行 压 人 (加载) 和 弹 
出 (存储 ) 操作 。 表 3-5 总 结 了 数据 传输 指令 。 


表 3-5 x87 FPU 数据 传输 指令 





助 记 符 jx 

fld 将 浮 点 值 压 人 寄存 器 栈 ， 源 操作 数 可 以 是 ST) 或 内 存 地 址 

fild 从 内 存 中 读 取 一 个 有 符号 整 型 操作 数 ， 将 该 值 转换 为 扩展 双 精 度 值 ， 并 将 此 结果 加 载 到 寄存 器 栈 中 
fbld 从 内 存 中 读 取 压缩 BCD 操作 数 ， 将 该 值 转换 为 一 个 扩展 双 精 度 值 ， 并 将 结果 加 载 到 堆栈 

fst 拷贝 ST(0) 到 ST(i) 或 内 存 位 置 

fstp 执行 与 fst 同样 的 操作 ， 并 且 进 行 弹 栈 操作 


fist 将 ST(0) 中 的 值 转换 为 一 个 整 型 数 ， 并 将 结果 保存 到 指定 的 内 存 位 置 
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(5€ ) 
助 记 符 f x 
fistp 执行 与 fist 同样 的 操作 ， 并 且 进 行 弹 栈 操 作 
fisttp 利用 截断 把 ST(0) 中 的 值 转换 为 整 型 数 ， 把 结果 保存 到 指定 的 内 存 位 置 ， 同 时 弹出 堆栈 。 本 指令 
在 支持 SSE3 的 处 理 器 中 才 有 效 
fbstp 将 ST(0) 中 的 值 转换 为 组 合 BCD 格式 ,保存 结果 到 指定 的 存储 位 置 ， 并 弹出 堆栈 
fxch 交换 寄存 器 ST(0) 和 STG) 的 内 容 
E 如 果 指 定 条 件 为 真 ， 则 有 条 件 地 将 STO 的 内 容 复 制 到 ST(0)。 有 效 的 条 件 代 码 见 表 3-6. MWE 
使 用 fmovec 指令 前 会 使 用 浮 点 比较 指令 ， 更 多 的 信息 参照 关于 浮 点 数 比较 的 3.2.3 节 
表 3-6 fcmovcc 指令 的 条 件 码 
条 件 码 d x 测试 条 件 
B 小 于 CF==1 
NB 不 小 于 CF==0 
E 等 于 ZF--1 
NE 不 等 于 ZF==0 
BE 小 于 或 等 于 CF==1 || ZF==1 
NBE 不 小 于 或 等 于 CF--0 && ZF==0 
U 无 序 的 PF 一 1 
NU 有 序 的 PF==0 
3.2.3 节 包 含 更 多 关于 使 用 有 序 和 无 序 的 浮 点 比较 的 信息 。 
3.22 ”基本 运算 
基本 运算 组 包含 执行 标准 算术 运算 的 指令 ， 包 括 加 、 减 、 乘 、 除 以 及 平方 根 。 表 3-7 列 
出 了 这 些 指令 
表 3-7 x87 FPU 基本 运算 指令 
助 记 符 描 x 
源 操 作 数 和 目标 操作 数 相 加 。 源 操作 数 可 以 是 内 存 地 址 或 者 x87 FPU 寄存 器 ， 目 标 操 作 数 必须 是 
fadd 
x87 FPU 寄存 器 
faddp ST(i) 和 ST(0) 相 加 ， 计 算 结 果 存 人 ST(i)， 同 时 弹出 堆栈 
fiadd ST(0) 与 指定 的 整 型 操作 数 相 加 ， 并 把 结果 存 入 ST(0) 
ests 从 目标 操作 数 (被 减 数 ) 中 减 去 源 操作 数 ( 减 数 )， 结 果 存 人 目标 操作 数 。 源 操作 数 可 以 是 内 存 地 址 
或 者 x87 FPU 寄存 器 ， 目 标 操作 数 必须 是 x87 FPU 寄存 器 
-— 从 源 操 作 数 (被 减 数 ) 中 减 去 目标 操作 数 ( 减 数 )， 结 果 存 人 目标 操作 数 。 源 操作 数 可 以 是 内 存 地 址 
或 者 x87 FPU 寄存 咒 ， 目 标 操作 数 必 须 是 x87 FPU 寄存 带 
fsubp 从 STG) 中 减 去 ST(0)， 保 存 差 值 到 ST(i)， 弹 出 堆栈 
fsubrp 从 ST(0) PRA STG), 保存 差 值 到 ST(i)， 弹 出 堆栈 
fisub 从 ST(0) 中 减 去 指定 的 整 型 操作 数 ， 保 存 差 值 到 ST(0) 
fisubr 从 指定 的 整 型 操作 数 中 减 去 ST(0)， 保存 差 值 到 ST(0) 
源 操 作 数 和 目标 操作 数 相 乘 ， 乘 积存 人 目标 操作 数 。 源 操作 数 可 以 是 内 存 地 址 或 者 x87 FPU 寄存 
器 ， 目 标 操作 数 必 须 是 x87 FPU 寄存 器 
fmulp ST(i) 和 ST(0) 相 乘 ， 乘 积存 人 ST(i)， 并 弹出 堆栈 
fimul ST(0) 与 指定 的 整 型 操作 数 相 乘 ， 乘 积存 人 ST(0) 
目标 操作 数 (被 除数 ) 除 以 源 操作 数 (除数 )。 源 操作 数 可 以 是 内 存 地 址 或 者 x87 FPU 寄存 器 ， 目 


标 操作 数 必须 是 x87 FPU 寄存 器 
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助 记 符 描 述 
源 操 作 数 (被 除数 ) 除 以 目标 操作 数 (除数 )。 源 操作 数 可 以 是 内 存 地 址 或 者 x87 FPU 寄存 需 ， 目 
标 操 作 数 必须 是 x87 FPU 寄存 器 
fdivp ST(i) 除 以 ST(0)， 商 保存 到 ST(D)， 并 弹出 堆栈 
fdivrp ST(0) 除 以 ST(i)， 商 保存 到 ST(i)， 并 弹出 堆栈 
fidiv ST(0) 除 以 指定 的 整 型 操作 数 ， 商 保存 到 ST(0) 
fidivr 用 指定 的 整 型 操作 数 除 以 ST(0)， 商 保存 到 ST(0) 
fprem 计算 ST(0) 除 以 ST(1)， 得 到 的 余数 存 人 ST(0)。 这 条 指令 常用 在 计算 余数 的 循环 中 
fpreml 类 似 于 fprem 指令 ， 不 过 计算 余数 的 时 候 用 的 是 IEEE 754 标准 指定 的 算法 


fdivr 

















fabs 计算 ST(0) 的 绝对 值 ， 并 将 结果 存 人 ST(0) 中 

fchs 补充 ST(0) 的 符号 位 ， 并 将 结果 保存 到 ST(0) 

esti 对 ST(0) AS {EL Ae A Bl e Fe UT YR, RR AEA STO) 中 。 使 用 x87 FPU 控制 字 中 的 RC 位 域 
来 指定 舍 人 的 方式 

fsqrt 计算 ST(0) 的 平方 根 ， 结 果 存 人 ST(0) 


fxtract 分 离 ST(0) 的 指数 部 分 和 有 效 数 部 分 ， 执 行 完 指令 后 ，ST(0) 中 包含 有 效 数 ，ST(1) 中 包含 指数 


3.2.3 数据 比较 


数据 比较 组 包含 用 于 比较 和 测试 浮 点 值 的 指令 。 如 本 章 前 面 所 讨论 的 ，x87 FPU 状态 字 
包含 了 一 组 用 于 指示 算术 和 比较 指令 结果 的 条 件 码 标志 。 表 3-8 列 出 了 执行 浮 点 比较 或 测试 
指令 (例如 fcom、fucom、ficom、ftst 或 fxam 以 及 它们 对 应 的 带 有 弹 栈 功能 的 指令 ) 后 条 
件 码 的 状态 ， 表 3-9 总 结 了 x87 FPU 数据 比较 指令 。 


表 3-8 x87 FPU 比较 指令 的 条 件 码 标志 
条 件 C3 C2 C0 





ST(0) > SRC_OP 0 0 0 
ST(0) < SRC OP 0 0 I 
ST(0) == SRC OP 1 0 0 
无 序 的 1 1 1 
表 3-9 x87 FPU 数据 比较 指令 
助 记 符 描 述 
fcom 比较 ST(0) 与 ST(i), 或 者 比较 ST(0) 与 内 存 操作 数 ， 同 时 基于 比较 结果 设置 x87 FPU 条 件 码 标志 


fcomp 比较 ST(0) 与 STGi), 或 者 比较 ST(0) 与 内 存 操作 数 ， 设 置 x87 FPU 条 件 码 标志 ， 同 时 弹出 堆栈 。 
fcompp fcompp 指令 进行 两 次 弹 栈 
fucom 执行 ST(0) 和 STG) 的 无 序 比 较 操 作 ， 根 据 结果 设置 x87 FPU 条 件 码 标志 


执行 ST(0) 与 STGi) 的 无 序 比较 操作 ， 设 置 x87 FPU 条 件 码 标志 ， 并 弹出 堆栈 。fucompp 弹 栈 两 次 
ficom 比较 ST(0) 与 内 存 中 的 整 型 操作 数 ， 根 据 结果 设置 x87 FPU 条 件 码 标志 

ficomp 比较 ST(0) 与 内 存 中 的 整 型 操作 数 ， 设 置 x87 FPU 条 件 码 标志 ， 同 时 弹出 堆栈 

fcomi 比较 ST(0) 与 ST(i)， 同 时 根据 结果 直接 设置 EFLAGS.CF, EFLAGS.PF 和 EFLAGS.ZF 


fcomip 执行 与 fcomi 指令 同样 的 操作 ， 同 时 弹出 堆栈 

执行 ST(0) 和 STG) 的 无 序 比 较 操 作 ， 同 时 根据 结果 直接 设置 EFLAGS.CF EFLAGS.PF 和 
EFLAGS.ZF 
fucomip 执行 与 fucomi 指令 同样 的 操作 ， 同 时 弹出 堆栈 


fucomi 


x87 $E X 71 
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比较 ST(0) 与 0.0， 根 据 结果 设置 x87 FPU 条 件 码 标志 


检查 ST(0) 并 设置 x87 FPU 条 件 码 标志 ， 表 明 值 所属 的 类 。 可 能 的 类 包括 非 规范 数 、 空 状态 、 无 
穷 大 、NaN 、 正 常 有 限 数 、 不 支持 的 格式 和 0 





没有 哪 条 条 件 转移 指令 可 以 直接 测试 x87 的 条 件 码 标志 。 为 了 使 程序 按照 条 件 码 的 状态 
跳 转 到 指定 位 置 ， 必 须 把 这 些 标志 转移 到 x86 处 理 器 的 状态 (EFLAGS) 寄存 器 。 数 据 比 较 
的 实现 是 通过 指令 序列 fstsw ax (AX 中 存储 的 x87 FPU 状态 字 ) 和 sahf (存储 AH 到 标志 客 
TERR) 来 实现 的 ， 它 们 分 别 将 条 件 码 标志 CO. C2 和 C3 复制 到 EFLAGS.CF、EFLAGS.PF 
和 EFLAGS.ZF。 基 于 P6 或 更 新 微 架 构 的 处 理 器 (包括 自 1997 年 销售 的 所 有 处 理 器 ) 也 可 
以 使 用 fcomi 和 fucomi 指令 直接 设置 EFLAGS.CF、EFLAGS.PF 和 EFLAGS.ZF。EFLAGS 
状态 位 设置 后 ， 条 件 跳 转 指令 可 以 使 用 表 3-6 中 描述 的 条 件 码 来 执行 。 

与 整数 比较 不 同 ， 浮 点 比较 存在 四 种 可 能 且 相 互 排斥 的 结果 : 小 于 ， EF, KF, 无 
序 。 无 序 的 浮 点 比较 发 生 时 ， 至 少 存在 一 个 操作 数 是 NaN 或 无 效 的 浮 点 值 。 在 一 个 有 序 的 
比较 中 ， 两 个 操作 数 都 是 有 效 的 浮 点 数字 。 使 用 x87 FPU 有 序 比较 指令 时 ， 如 果 操 作 数 是 
NaN 或 无 效 值 ， 将 导致 处 理 器 产生 一 个 无 效 操作 异常 。 如 果 无 效 操作 异常 被 屏蔽 ，x87 FPU 
条 件 码 标志 或 EFLAGS 状态 位 会 进行 相应 的 设置 。 使 用 x87 FPU 无 序 比 较 指令 时 ， 如 果 操 
作 数 中 存在 一 个 SNaN 或 无 效 值 ， 会 触发 x87 FPU 无 效 操作 异常 。 如 果 无 效 操作 异常 被 屏 

， 会 设置 x87 FPU 条 件 码 标志 或 EFLAGS 状态 位 。 另 外 ， 执 行 无 序 比较 指令 时 ， 如 果 使 
用 的 是 QNaN 操作 数 ， 会 使 得 条 件 码 标志 或 者 EFLAGS 状态 位 被 置 位 ， 但 是 不 会 触发 异常 。 


3.2.4 超越 函数 


Bk (Transcendental) 函数 组 的 指令 包含 对 浮 点 操作 数 执行 三 角 函 数 、 对 数 和 指数 运算 
的 各 种 指令 。 表 3-10 列 出 了 这 一 组 的 指令 。 


表 3-10 x87 FPU 超越 函数 指令 


助 记 符 描述 

fsin 计算 ST(0) 的 正弦 值 并 将 结果 存 人 ST(0) 中 

fcos 计算 ST(0) 的 余弦 值 并 将 结果 存 人 ST(0) 中 

fsincos 计算 ST(0) 的 正弦 和 余弦 值 ， 执 行 完 指 令 后 ，ST(0) M STO) 中 分 别 包含 原 操作 数 的 正弦 和 余弦 值 
fptan 计算 ST(0) 的 正切 值 并 将 结果 存 入 STO) 中 ， 同 时 将 常数 1.0 压 人 堆栈 

fpatan 计算 ST(1) 除 以 ST(0) 的 反正 切 值 ， 同 时 将 结果 存 人 ST(0) 

f2xml 计算 2^(ST(0)-1) 同时 把 结果 存 人 ST(0)， 源 操作 数 的 值 必须 在 -1.0 至 1.0 之 间 

fyl2x 计算 ST(1)*log2(ST(0)), 结果 存 人 ST(1)， 并 弹出 堆栈 


fyl2xpl 计算 ST(1) * log2(ST(0)+1.0)， 结 果 存 人 ST(1)， 并 弹出 堆栈 
截断 (向 0 伟人 ) STO) 的 值 ， 并 将 此 值 与 ST(0) 的 指数 部 分 相 加 。 这 一 指令 用 来 对 2 的 整数 寡 做 快 
速 乘除 计算 


fscale 


量 组 包含 用 于 加 载 常 用 的 浮 点 常量 值 的 指令 。 表 3-11 列 出 了 常量 组 的 指令 。 
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# 3-11 x87 FPU 常量 组 指令 








助 记 符 fü 述 

fidi 把 常数 +1.0 EA x87 FPU 寄存 器 栈 

fldz 把 常数 +0.0 JEA x87 FPU 寄存 器 栈 
fldpi 把 常数 x IEA x87 FPU 寄存 器 栈 

fldl2e | 把 常数 值 log2(e) EA x87 FPU 寄存 器 栈 
fldin2 把 常数 值 In(2) JEA x87 FPU 寄存 器 栈 
fldi2t 把 常数 1og2(10) JRA x87 FPU 寄存 器 栈 
fldlg2 把 常数 log10(2) HEA x87 FPU 寄存 器 栈 


3.2.6 ”控制 
控制 组 包含 用 于 管理 x87 FPU 控制 寄存 器 和 状态 寄存 器 的 指令 ， 还 包含 便于 管理 x87 
FPU 的 执行 环境 和 运行 状态 的 指令 。 表 3-12 中 描述 了 这 些 控制 组 指令 。 以 fn 为 前 缀 的 指令 
在 执行 前 会 忽略 所 有 尚未 处 理 的 未 屏蔽 浮 点 异常 ， 标 准 前 级 的 指令 在 执行 前 会 先 处 理 任 何 尚 
未 处 理 的 未 屏蔽 序 点 异常 。 
表 3-12 x87 FPU 控制 指令 
助 记 符 já x 





noi | 初始 化 x87 FPU EIRE 

和 通过 对 x87 FPU 状态 字 中 的 TOS 域 加 1， 更 改 当 前 的 堆栈 指针 位 置 。x87 FPU 数据 寄存 器 和 标记 
字 的 内 容 不 被 修改 ， 也 就 是 说 ， 该 指令 不 等 同 于 出 栈 。 此 指令 可 用 于 手动 管理 x87 FPU 寄存 器 栈 

fdečstp 通过 对 x87 FPU 状态 字 中 的 TOS 域 减 1， 更 改 当 前 的 堆栈 指针 位 置 。x87 FPU 数据 寄存 器 和 标记 
字 的 内 容 不 被 修改 ， 也 就 是 说 ， 该 指令 不 等 同 于 人 栈 。 些 指令 可 用 于 手动 管理 x87 FPU 寄存 器 栈 

ffree 通过 设置 相应 的 标记 字 状 态 为 空 ， 释 放 x87 FPU 浮 点 寄存 器 

fledw 从 指定 的 内 存 位 置 加 载 x87 FPU 控制 字 

fstew 


: 把 x87 FPU 控制 字 保 存 到 指定 的 内 存 位 置 
fnstcw 












— 把 x87 FPU 状态 字 保 存 到 AX 寄存 器 或 者 内 存 位 置 


fnstsw 






fclex 清除 以 下 x87 FPU 状态 字 位 : PE, UE, OE, ZE, DE, IE, ES, SF 和 B。 执 行 完 此 指令 后 ， 条 
fnclex 件 码 标志 CO, C1, C2 和 C3 处 于 未 定义 状态 
fstenv 把 当前 x87 FPU 执行 环境 保存 到 内 存 ， 包 括 控 制 字 、 状 态 字 、 标 记 字 、x87 FPU 数据 指针 、x87 





FPU 指令 指针 和 x87 FPU 最 后 一 条 指令 操作 码 
从 内 存 中 加 载 x87 FPU 执行 环境 


fnstenv 
















fsave 保存 当前 x87 FPU 运行 状态 ,包括 所 有 数据 寄存 器 的 内 容 和 以 下 项 : 控制 字 、 状 态 字 、 标 记 字 、 
fnsave ”|x87 FPU 数据 指针 、x87 FPU 指令 指针 和 x87 FPU 最 后 一 条 指令 操作 码 








frstor 从 内 存 中 加 载 x87 FPU 运行 状态 





3.3 总 结 


本 章 全 面 介绍 了 x87 FPU 的 核心 架构 ， 包 括 其 数据 类 型 、 栈 形式 的 寄存 器 集合 、 控 制 
寄存 带 和 状态 寄存 器 。 你 还 在 这 一 章 里 学 习 了 用 来 表示 浮 点 数 的 二 进 制 编码 方法 。 如 果 你 是 
第 一 次 接触 浮 点 架构 ， 那 么 可 能 会 感到 比较 深奥 。 在 第 4 章 中 ,我 们 会 通过 很 多 示例 程序 来 
演示 如 何 使 用 x87 FPU 指令 集 进 行 浮 点 计算 ， 这 会 帮助 你 消除 脑海 中 的 困惑 。 


| 第 4 章 


Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


x87 FPU 编程 





本 章 将 更 详细 地 介绍 x87 FPU 的 架构 和 它 的 指令 集 。 我 们 将 通过 x86 汇编 语言 函数 来 
演示 x87 FPU 编程 的 基本 要 领 和 高 级 技巧 。 首 先 ， 我 们 将 从 几 个 示例 程序 开始 x87 FPU 的 
探索 之 路 ， 这 几 个 例子 演示 了 如 何 对 浮 点 数 执行 基本 的 运算 和 比较 操作 。 然 后 ,我 们 将 学 习 
如 何 对 浮 点 数组 进行 计算 。 本 章 的 最 后 一 部 分 示例 程序 将 演示 x87 FPU 的 超越 指令 ， 并 顺便 
介绍 如 何 有 效 使 用 x87 FPU 的 寄存 器 栈 。 我 们 假定 读者 在 阅读 本 章 内 容 时 已 经 比较 熟悉 第 
1、2、3 章 中 的 材料 。 

注意 ”使 用 浮 点 运算 开发 软件 总 要 多 加 一 些小 心 。 本 章 示例 程序 的 主要 目的 是 介绍 x87 
FPU 的 架构 和 指令 集 ， 没 有 涉及 一 些 重 要 的 浮 点 问题 ， 比 如 舍 入 误差 、 数 值 一 致 性 和 病态 函 
数 。 软 件 开发 者 在 实际 项 目 中 设计 和 实现 使 用 浮 点 运算 的 算法 时 ， 就 必须 要 考虑 这 些 问题 。 
如 果 你 有 兴趣 了 解 更 多 关于 浮 点 运算 的 潜在 陷阱 ， 请 查阅 附录 C 中 所 列 的 参考 资料 。 


4.1 x87 FPU 编程 基础 

本 节 将 通过 几 个 示例 程序 来 演示 x87 FPU 编程 的 基本 要 领 。 第 一 个 示例 程序 演示 如 何 使 
用 x87 FPU 进行 简单 运算 ， 同 时 展示 如 何 声明 和 引用 在 内 存 中 的 整数 和 浮 点 常量 。 第 二 个 示 
例 程 序 说 明 如 何 用 浮 点 数 执行 比较 操作 。 你 还 将 学 习 如 何 根据 比较 操作 的 结果 进行 条 件 跳 转 。 


4.1.1 简单 计算 


我 们 要 分 析 的 第 一 个 示例 程序 名 叫 TemperatureConversions (温度 转换 )。 这 个 示例 程序 
包含 了 几 个 通过 x87 FPU 进行 温度 值 转换 的 函数 : 华氏 度 转换 成 摄氏 度 和 摄氏 度 转换 成 华氏 
度 。 尽 管 很 简单 ， 但 这 些 温度 转换 函数 展示 了 一 些 关键 的 x87 FPU 编程 概念 ， 包 括 使 用 x87 
FPU 寄存 咒 栈 和 处 理 内 存 中 的 浮 点 常量 。 它 还 演示 了 如 何 从 汇编 语言 函数 中 返回 一 个 浮 点 数 
值 给 调用 者 。 清 单 4-1 和 清单 4-2 分 别 列 出 了 这 个 程序 的 C++ 和 汇编 语言 源 代码 。 

清单 4-1 TemperatureConversions.cpp 
#include "stdafx.h" 


extern "C" double FtoC (double deg f); 
extern "C" double CtoF (double deg c); 


int tmain(int argc, TCHAR* argv[]) 
{ 
double deg fvals[] = {-459.67, -40.0, 0.0, 32.0, 72.0, 98.6, 212.0}; 
int nf = sizeof(deg fvals) / sizeof(double); 
for (int i = 0; i < nf; i++) 
double deg c = FtoC (deg fvals[i]); 
printf("i: Xd f: %10.41f c: %10.41f\n", i, deg fvals[i], deg c); 


printf("\n"); 
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double deg cvals[] = {-273.15, -40.0, -17.77, 0.0, 25.0, 37.0, 100.0}; 
int nc - sizeof(deg cvals) / sizeof(double); 
for (int i = 0; i « nc; i++) 
double deg f - CtoF (deg cvals[i]); 
printf("i: 4d c: *10.41f f: %10.41f\n", i, deg cvals[i], deg f); 
} 
return 0; 
} 


清单 4-2 TemperatureConversions .asm 
.model flat,c 


.const 

r8 SfFtoC real8 0.5555555556 $: 549 

r8 SfCtoF real8 1.8 39475 

i4 32 dword 32 

; extern "C" double FtoC (double f) 

; 描述 : 把 华氏 度 转 换 为 摄氏 度 温 度 

; 返回 ， 以 摄氏 度 表 示 的 温度 值 
.Code 

FtoC proc 
push ebp 
mov ebp,esp 
fld [r8 SfFtoC] ;加 载 5/9 
fld real8 ptr [ebp+8] sD 'f'; 
fild [i4 32] ;加 载 常数 32 
fsubp ;ST(0) = F - 32 
fmulp ;ST(0) = (f - 32) * 5/9 
pop ebp 
ret 

FtoC endp 

; extern "C" double CtoF (double c) 

; 描述 : 把 摄氏 度 转换 为 华氏 度 温度 

; 返回 : 以 华氏 度 表示 的 温度 值 

CtoF proc 
push ebp 
mov ebp,esp 
fld real8 ptr [ebp+8] ;加 载 'c' 
fmul [r8 SfCtoF] ;ST(0) = c * 9/5 
fiadd [i4 32] ;ST(0) = c * 9/5 + 32 
pop ebp 
ret 

CtoF endp 
end 





X 


* 
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下 面 是 摄氏 度 值 转换 到 华氏 度 的 公式 及 逆 变 换 公 式 : 
C-(F-32)x5/9 F=C X 9/5+32 

清单 4-2 的 开头 是 一 个 .const 指示 符 ， 它 定义 了 一 个 包含 常量 值 的 内 存 块 的 起 始 位 置 。 
不 同 于 x86 的 通用 指令 集 ，x87 FPU 指令 集 不 支持 使 用 常数 作为 立即 操作 数 。 除 去 少数 被 常 
数 加 载 指令 支持 的 数值 外 ， 常 量 值 必须 从 内 存 中 加 载 。.const 段 包 括 温 度 转换 使 用 的 两 个 比例 
因子 ，real8 指示 符 分 配 和 初始 化 一 个 双 精 度 浮 点 值 。 本 节 还 声明 了 一 个 dword (32 位 ) 的 整 
型 数值 32。 关 于 .const 段 还 有 一 点 值得 注意 ， 其 中 的 数据 排列 是 精心 安排 的 ， 以 保证 每 个 常 
量 都 是 内 存 对 齐 的 。 

在 函数 FtoC_ 中 ， 紧 随 其 函数 序言 之 后 的 第 一 条 指令 fld [r& SfFteC] (加 载 浮 点 数值 ) 
把 常数 5/9 加 载 (或 者 说 压 人 ) 到 x87 FPU 寄存 器 栈 。 下 一 条 指令 fld real8 ptr [ebp+8] 把 华 
氏 温 度 的 参数 值 加 载 到 x87 FPU 寄存 器 栈 。real8 ptr 操作 符 通知 汇编 器 把 内 存 中 的 操作 数 当 
作 双 精度 浮 点 数 处 理 (在 这 里 也 可 以 用 操作 符 qword ptr， 但 是 用 real8 ptr 可 以 强调 加 载 的 是 
双 精 度 浮 点 数 )。 

指令 fild [i4 32] (加 载 整 型 数 ) 把 双 字 整 型 数 32 从 内 存 加载 到 x87 FPU 栈 。 从 内 存 中 
读 取 操作 数 的 时 候 ，x87 FPU 自动 把 它 从 有 符号 的 双 字 整 型 数 转换 为 内 部 格式 ， 即 扩展 双 精 
度 浮 点 数 。 鉴 于 这 种 转换 过 程 需要 时 间 ， 比 较 稳 妥 的 是 
使 用 reals 代替 dword 定义 常量 32， 但 在 此 函数 中 , 这 。 
样 做 的 目的 是 为 了 举例 说 明 fild 指令 的 用 法 。 执 行 完 fild 
指令 后 ，x87 FPU 寄存 器 栈 上 包含 了 三 个 数值 : 常数 


32.0、 华 氏 温 度 参 数 和 常数 /9， 如 图 4-1 所 示 。 in 

fsubp (减法 ) 指令 从 STA) 中 减 去 ST(0)， 把 差 值 保存 S 
到 ST(1)， 并 弹出 x87 FPU 堆栈 。 执 行 完 这 条 指令 后 ，ST(0) " 
包含 值 F-32，ST(1) 中 包含 值 59。 指 令 fmulp 把 ST(1) 和 m 





STO) 相 乘 ， 并 把 乘积 保存 到 ST()， 同 时 弹出 寄存 器 栈 。 
执行 完 fmulp (乘法 ) 指令 后 ，ST(0) 中 包含 转换 成 摄氏 度 的 ”图 4-1 指令 fd 执行 后 的 x87 FPU 
温度 值 ， 并 且 这 是 x87 FPU 寄存 器 栈 中 的 唯一 项 了 。 寄存 器 栈 的 内 容 

Visual C++ 的 32 位 程序 调用 约定 规定 范 数 必须 使 用 
ST(0) 返回 浮 点 值 给 调用 者 ， 所 有 其 他 的 x87 FPU 寄存 器 必须 是 空 的 ;， 如果 函数 不 需要 返回 
一 个 浮 点 值 ， 则 整个 x87 FPU 寄存 器 栈 必须 是 空 的 。 函 数 如 果 修 改 了 x87 FPU 控制 寄存 器 
的 标志 ， 则 必须 在 返回 前 将 这 些 标志 恢复 成 原来 状态 。 在 本 例 中 ，x87 FPU 寄存 器 栈 已 经 包 
含 了 需要 的 返回 值 ， 因 此 在 函数 结束 前 不 需要 使 用 其 他 指令 来 收尾 。 

把 温度 值 从 摄氏 度 转换 为 华氏 度 的 函数 CtoF_ 的 过 程 类 似 于 FtoC_。 两 个 函数 的 最 大 
区 别 在 于 ， 前 者 执行 算术 运算 的 时 候 使 用 内 存 操作 数 ， 这 使 得 所 需 的 指令 更 少 。 函 数 CtoF_ 
的 第 一 步 操 作 是 把 摄氏 度 参 数 加 载 到 x87 FPU 栈 中 。 然 后 ， 使 用 指令 fmul [r8 SfCtoF] 将 
ST(0) 中 的 温度 值 和 9/5( 或 者 1.8) 相 乘 ， 乘 积 保存 到 ST(0)。 最 后 一 条 指令 fiadd [i4_32] (加 
ik) 让 32 和 ST(0) 相 加 ， 计 算出 最 终 的 华氏 温度 值 。 

这 个 例子 的 C++ 文件 在 清单 4-1 中 列 出 来 了 ， 它 包含 一 些 用 来 使 用 函数 FtoC 和 CtoF_ 
的 测试 用 例 。TemperatureConversions 的 输出 结果 见 输出 4-1。 最 后 要 说 明 的 是 ， 这 个 示例 
程序 中 没有 对 理论 上 不 可 能 的 温度 值 进行 有 效 性 检查 。 例 如 ，-1000 华氏 度 的 温度 可 以 作为 
函数 FtoC 的 参数 值 ， 函 数 会 忽略 现实 中 的 物理 限制 并 执行 计算 。 


* 
4s 
$ 
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输出 4-1 示例 程序 TemperatureConversions 


i: 0 f: -459.6700 c -273.1500 
TX fs -40.0000 c -40.0000 
i: 2 f 0.0000 c -17.7778 
i: 3 f 32.0000 c: 0.0000 
i: 4 f: 72.0000 c 22.2222 
155; f: 98.6000 c 37.0000 
I: 6 f: 212.0000 c 100.0000 
i: 0 c: -273.1500 f: -459.6700 
is1 c -40.0000 f: -40.0000 
i: 2; c: «17.7700 f: 0.0140 
143 c 0.0000 f: 32.0000 
gs es 25.0000 f: 71.0000 
d: 5 €t 37.0000 f: 98.6000 
i: 6 c: 100.0000 f: 212.0000 
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4.4.2 浮 点 比较 


下 一 个 示例 程序 是 CalcSphereAreavolume。 这 个 程序 演示 了 如 何 比较 两 个 浮 点 数 ， 同 
时 描述 了 若干 x87 FPU 常数 加 载 指令 的 用 法 。CalcSphereAreaVolume 的 C++ 和 汇编 语言 也 
源 代码 分 别 见 清单 4-3 和 清单 4-4。 


清单 4-3 CalcSphereAreaVolume.cpp 





#include "stdafx.h" 
extern "C" bool CalcSphereAreaVolume (double r, double* sa, double* v); 


int tmain(int argc, TCHAR* argv[]) 


{ 
double r[] = { -1.0, 0.0, 1.0, 2.0, 3.0, 5.0, 10.0, 20.0 }; 
int num r = sizeof(r) / sizeof(double) ; 
for (int i = 0; i < num r; i++) 
{ 
double sa = -1; 
double v = -1; 
bool rc = CalcSphereAreaVolume (r[i], &sa, &v); 
printf("rc: Xd r: %8.21f sa: %10.41f v: %10.41f\n", rc, r[i], sa, 
e v) 
} 
return 0; 
} 


清单 4-4 CalcSphereAreaVolume_.asm 


.model flat,c 
.const 

r8 4p0O real8 4.0 

r8 3p0 real8 3.0 


; extern "C" bool CalcSphereAreaVolume (double r, double* sa, double* v); 
描述 : 计算 球体 表面 积 和 体积 


返回 : 0 = 无 效 半径 值 
1 = 有 效 半径 值 


ELE SEEN 


.code 
CalcSphereAreaVolume proc 

push ebp 

mov ebp,esp 


; 确保 半径 值 是 有 效 的 


XOr eax,eax ;设置 错误 返回 码 
fld real8 ptr [ebp+8] ;ST(0) = T 
fldz ;ST(0) = 0.0, ST(1) =r 
fcomip st(0),st(1) ;比较 0.0 和 
fstp st(0) ;从 堆栈 中 移 除 r 
jp Done ;如 果 是 无 序 操作 数 ， 则 跳 转 
ja Done ;如 果 r<0.0， 则 跳 转 

; 计算 球体 表面 积 
fld real8 ptr [ebp+8] 5ST(0) = r 
fld st(0) ;ST(0) = r, ST(1) = r 
fmul st(0),st(0) 5SST(0) = r * xj, ST(1) = x 
fldpi ;ST(0) = pi 
fmul [r8 4po] 5ST(0) = 4, * pi 
fmulp SST(O) = 4 A pi r ET 
mov edx, [ebp+16] 
fst real8 ptr [edx] ;保存 球体 表面 积 

; 计算 球体 体积 
fmulp ;3ST(0O) -ph*4* r*r*r 
fdiv [r8 3po] STO) = pi * 4 * xr *¥ x * E73 
mov edx, [ebp+20] 
fstp real8 ptr [edx] ;保存 体积 
mov eax,1 ;设置 成 功 返 回 码 

Done: pop ebp 
ret 

CalcSphereAreaVolume_ endp 
end 





球体 的 表面 积 和 体积 可 以 用 下 面 的 公式 来 计算 : 
sa-4nr) v-4nr/3-(4Anr^)r/3 

在 CalcSphereAreaVolume_ ( 见 清单 4-4 ) 的 函数 序言 之 后 ， 进 行 了 球体 半径 的 有 效 性 
检测 。 首 先 ， 使 用 指令 fld real8 ptr [ebp+8] 把 参数 值 + 加 载 EA) 到 x87 FPU 寄存 器 栈 中 。 
然后 ， 指 令 fldz (加 载 常 数 0.0 ) 把 浮 点 常数 值 0.0 加 载 到 寄存 器 栈 中 。 指 令 fcomip st(0), 
st(1) (比较 浮 点 值 并 且 设 置 EFLAGS) 比较 ST(0) 和 ST(1) (或 者 说 是 比较 0.0 Alir), HHR 
据 结 果 设 置 状 态 标志 ， 同 时 弹出 x87 FPU 寄存 器 栈 。 紧 接着 的 指令 fstp st(0) (存储 浮 点 值 
并 且 弹 出 寄存 器 栈 ) 从 x87 FPU 寄存 器 栈 中 移出 r 值 ， 同 时 使 得 栈 变 空 。 在 测试 状态 标志 前 
清空 x87 FPU 寄存 器 栈 ， 这 是 为 了 遵守 Visual C++ 的 调用 约定 ，r 值 应 该 变 成 无 效 。 在 清除 
x87 FPU 寄存 器 栈 后 ， 有 两 个 条 件 跳 转 指令 jp Done 和 ja Done， 分 别 执行 的 是 如 果 r 是 NaN 
(或 无 效 ) 或 者 小 于 0.0 的 跳 转 。 

比较 操作 指令 fcomip 的 执行 细节 值得 我 们 仔细 体会 ， 这 个 指令 从 ST(0) 减 去 ST(1) 并 
设置 状态 标志 ， 如 表 4-1 所 示 ( 差 值 被 丢弃 了 )。x87 FPU 的 其 他 比较 指令 fcomi, fucomi 和 
fucomip 也 通过 同样 的 状态 标志 来 反映 它们 的 比较 结果 。fcomip 及 这 些 类 似 的 比较 指令 通过 
设置 标志 EFLAGS.ZF、EFLAGS.PF 和 EFLAGS.CF， 让 函数 可 以 通过 条 件 跳 转 指令 执行 浮 
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点 相关 的 跳 转 决定 ， 如 表 4-2 所 示 。 
表 4-1 f(u)comi(p) 指令 设置 的 状态 标志 


条 件 EFLAGS.ZF EFLAGS.PF EFLAGS.CF 
ST(0) > ST(i) 0 0 0 
ST(0) = ST(i) 1 0 0 
ST(0) < ST(i) 0 0 1 
无 序 的 1 1 1 


表 4-2 执行 f(u)comi(p) 指令 后 的 条 件 跳 转 


相关 的 操作 符 条 件 跳 转 EFLAGS 测试 条 件 
ST(0) < ST(i) jb CF =| 
ST(0) <= ST(i) jbe CF—IJ|[ZF-1 
ST(0) == ST(i) jz ZF =1 
ST(0) != ST(i) jnz ZF--0 
ST(0) > ST(i) ja CF = 0 && ZF == 0 
ST(0) >= ST(i) jae CF ==0 


应 当 注意 的 是 表 4-1 中 描述 的 状态 寄存 器 的 各 种 状态 只 有 在 x87 FPU 无 效 操作 异常 
(x87 FPU 控制 寄存 器 中 的 IM 位 ) 被 屏蔽 (对 Visual C++ 而 言 的 缺 省 状态 ) 时 才能 设置 。 如 
果 无 效 操作 异常 没有 被 屏蔽 ， 并 且 有 一 个 操作 数 是 NaN 类 型 或 者 是 无 效 的 ，fcomi(p) 指令 
会 触发 一 个 异常 。 而 当 操作 数 是 SNaN 或 无 效 时 ，fucomi(p) 指令 也 会 触发 异常 。 如 果 操 作 
数 是 QNaN， 处 理 咒 将 会 设置 状态 标志 来 指示 一 个 无 序 状态 ,但 不 产生 异常 。 关 于 x87 FPU 
如 何 使 用 NaN 数 以 及 有 序 和 无 序 的 比较 操作 ， 在 第 3 章 中 有 详细 的 阐述 。 

WR r 的 值 是 有 效 的， 函数 使 用 指令 fld real8 ptr [ebp+8] HE r EA x87 FPU 寄存 器 栈 。 
接 下 来 的 指令 fld st(0) 拷贝 栈 顶 的 元 素 ， 同 时 将 其 压 入 x87 FPU 寄存 器 栈 。fmul st(0), st(0) 
指令 计算 半径 的 平方 值 ， 并 将 结果 存 人 ST(0) ; fldpi 指令 把 常数 天 压 人 x87 FPU 寄存 器 栈 。 
在 执行 完 fldpi 指令 后 ，x87 FPU 寄存 器 栈 包 含 三 个 项 : ST(0) 中 的 常数 x、ST(1) 中 的 r*r 以 
及 ST(2) 中 的 r， 如 图 4-2 左 部 所 示 。 最 后 使 用 两 个 乘法 指令 计算 球体 表面 积 : fmul [r8_4p0] 
和 fmulp。 计 算出 的 结果 由 调用 者 使 用 指令 fst 存 人 指定 的 内 存 地 址 。 此 时 x87 FPU 寄存 器 
栈 中 还 包含 两 个 值 : ST(0) 中 包含 计算 出 的 表面 积 和 ST(1) 中 的 半径 ， 如 图 4-2 右 部 所 示 。 





执行 fldpi 之 后 的 栈 执行 fmulp 之 后 的 栈 
图 4-2 执行 指令 fldpi 和 fmulp 之 后 x87 寄存 器 栈 的 内 容 
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这 个 函数 利用 fmulp 指令 和 fdiv[r8_3p0] (除法 ) 指令 ， 用 球 半径 乘 以 表面 积 的 乘积 
除 以 3.0 得 出 球体 体积 。 最 终 球体 的 体积 使 用 fstp real8 ptr[edx] 指令 保存 到 调用 者 指定 的 
内 存 位 置 。 执 行 该 指令 后 ，x87 FPU 寄存 器 栈 为 空 。 输 出 4-2 显示 了 示例 程序 CalcSphere- 
AreaVolume 的 执行 结果 。 


输出 4-2 示例 程序 CalcSphereAreaVolume 


rcs O ri -1.00 sa: -1.0000 v: -1.0000 
rc: 1 rt: 0.00 sa: 0.0000 v 0.0000 
res d. 3e 1.00 sa: 12.5664 v 4.1888 
res X T 2.00 sa: 50.2655 v 33.5103 
Ye: d xt 3.00 sa: 113.0973 wv: 113.0973 
fc? Yi 5.00 sa: 314.1593 v 523.5988 
rci 1 mr: 10.00 sa: 1256.6371 v 4188.7902 
rco d x; 20.00 sa: 5026.5482 wv: 33510.3216 





4.2 x87 FPU 高 级 编程 


在 上 一 节 中 ， 我 们 学 习 了 如 何 使 用 x87 FPU 进行 一 些 基 本 的 浮 点 运算 。 本 章 的 剩余 部 
分 将 重点 介绍 x87 FPU 的 高 级 编程 技巧 。 我 们 以 分 析 两 个 处 理 浮 点 数组 的 示例 程序 开始 ， 然 
后 是 一 个 描述 若干 x87 FRU 超越 指令 的 例子 ， 最 后 的 示例 程序 重点 演示 了 x87 FPU 寄存 器 
栈 的 使 用 。 


4.21 FARA 


接 下 来 是 两 个 使 用 x87 FPU 进行 浮 点 数组 处 理 的 示例 程序 。 这 两 个 示例 程序 还 演示 其 
他 一 些 x87 FPU 指令 ， 包 括 平方 根 和 浮 点 数 条 件 传送 。 

第 一 个 示例 程序 名 为 CalcMeanStdev， 此 程序 计算 双 精 度 浮 点 数组 中 样本 均值 和 多 个 值 
的 标准 偏差 。 清 单 4-5 和 清单 4-6 分 别 包含 了 C++ 和 汇编 语言 程序 文件 的 源 代 码 。 


清单 4-5 CalcMeanStdev.cpp 


#include "stdafx.h" 
#include «math.h» 


extern "C" bool CalcMeanStdev (const double* a, int n, double* mean, double*= 
stdev); 


bool CalcMeanStdevCpp(const double* a, int n, double* mean, double* stdev) 


if (hi <= 1) 
return false; 


double sum = 0.0; 

for (int i = 0; i < n; i++) 
sum += a[i]; 

*mean = sum / n; 


sum = 0.0; 
for (int i = 0; i < ni ie) 
{ 


double temp = a[i] - *mean; 
sum += temp * temp; 








*stdev = sqrt(sum / (n - 1)); 
return true; 


) 


int tmain(int argc, TCHAR* argv[]) 
{ 
double a[] = ( 10, 2, 33, 15, 41, 24, 75, 37, 18, 97); 
const int n - sizeof(a) / sizeof(double); 
double meani, stdevi; 
double mean2, stdev2; 


CalcMeanStdevCpp(a, n, &meani, &stdev1); 
CalcMeanStdev (a, n, &mean2, &stdev2); 


for (int i = 0; i < ni i++) 
printf("a[%d] = %g\n", i, a[i]); 


printf("\n"); 
printf("meani: %g stdevi: %g\n", meani, stdev1); 
printf("mean2: %g stdev2: %g\n", mean2, stdev2); 





清单 4-6 CalcMeanStdev_.asm 


.model flat,c 
.code 


; extern "C" bool CalcMeanStdev(const double* a, int n, double* mean, = 
double* stdev); 


; 描述 : 计算 数组 元 素 的 均值 和 标准 偏差 
; 返回 . 0 = *n* 无 效 
; 1 = 'n' 有 效 


CalcMeanStdev proc 
push ebp 
mov ebp,esp 
sub esp,4 


; 确保 'n' 有 效 
XOT eax,eax 
mov ecx, [ebp+12] 


cmp ecx,1 

jle Done ;如 果 n<=1， 跳 转 
dec ecx 

mov [ebp-4],ecx ;保存 n-1， 以 备 后 用 
inc ecx 


; 计算 样本 均值 


mov edx, [ebp+8] ;edx = 'a' 

fldz ;和 变量 = 0.0 
QQ: fadd real8 ptr [edx] ;和 变量 *a 

add edx,8 ja++ 

dec ecx 

jnz @B 

fidiv dword ptr [ebp+12] ;均值 = 和 /n 


; 计算 样本 标准 差 


mov edx, [ebp+8] ;edx = ‘a 
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mov ecx, [ebp+12] ;n 
fldz ;sum = 0.0, ST(1) = mean 
@@: fld real8 ptr [edx] ;ST(0) = *a, 
fsub st(0),st(2) ;ST(0) = *a — mean(mean 为 样本 均值 ) 
fmul st{0),st(0) ;ST(0) = (*a - mean) ^ 2(mean 为 样本 均值 ) 
faddp ;更 新 和 变量 
add edx,8 
dec ecx 
jnz @B 
fidiv dword ptr [ebp-4] ;var = sum / (n - 1)(sum 为 和 变量 ) 
fsqrt ;最 终 的 标准 偏差 
; 保存 结果 
mov eax, [ebp+20] 
fstp real8 ptr [eax] ;保存 标准 偏差 
mov eax, [ebp+16] 
fstp real8 ptr [eax] ;保存 样本 均值 
mov eax,1 ;设置 计算 成 功 的 返回 码 
Done: | mov esp,ebp 
pop ebp 
ret 
CalcMeanStdev_ endp 
end 


下 面 是 示例 程序 CaleMeanStdev 用 来 计算 样本 均值 和 样本 标准 偏差 的 公式 : 


wal al Ly oe 
Te oh ge wae x) 


注意 ”如果 没有 明确 指定 ， 本 书 中 任何 求 和 运算 的 范围 都 是 0 到 n-1。 

紧 跟 在 函数 序言 之 后 ， 图 数 CaleMeanStdev 执行 数组 元 素 个 数 n 的 有 效 性 验证 。 为 了 
计算 样本 的 标准 偏差 ， 数 组 中 的 元 素 个 数 必须 大 于 或 等 于 2。 验 证 完成 之 后 ， 值 n-1 被 计 
算出 来 并 保存 到 堆栈 上 的 局 部 变量 中 。 至 此 ，n 已 经 加 载 到 寄存 器 ECX 中 。 在 减法 运算 中 ， 
整 型 数 计算 比 浮 点 计算 要 快 。 把 n-1 存储 到 内 存 中 也 是 因为 x86 不 支持 从 通用 寄存 器 到 x87 
FPU 寄存 器 的 数据 传输 。 

样本 均值 的 计算 很 简单 ， 只 需要 7 ARES. PEAR AMA AT, PAB CalcMeanStdev_ 使 
用 mov edx, [ebp+8] 指令 初始 化 EDX， 使 之 指向 数组 a。 函数 也 使 用 了 fldz 指令 使 得 ST(0) 
用 作 求 和 变量 。 在 求 和 循环 中 ， 指 令 fadd real8 ptr [edx] 把 当前 数组 元 素 加 到 ST(0) 中 。 因 
为 在 数组 中 有 双 精 度 浮 点 数 ， 因 此 使 用 了 real8 ptr 操作 符 。 在 把 当前 数组 元 素 加 至 ST(0) 之 
后 ， 指 令 add edx, 8 更 新 寄存 器 EDX， 使 其 指向 数组 的 下 一 个 元 素 。 重 复 求 和 循环 ， 直 到 所 
有 数组 元 素 求 和 完成 。 然 后 使 用 fidiv dword ptr [ebp+12] 指令 计算 样本 均值 ， 最 终 样本 均值 
THX ST(0) 中 的 数组 元 素 之 和 。 

样本 标准 偏差 也 使 用 求 和 循环 来 计算 。 进 入 循环 前 ， 寄 存 器 EDX 和 ECX 被 重新 初始 
化 为 数组 的 指针 和 循环 计数 器 , fldz 指令 把 和 初始 化 为 0.0。fldz 指令 完成 后 , ST(0) 包含 0.0， 
STI 包含 样本 均值 。 在 求 和 循环 中 ， 每 个 数组 元 素 都 使 用 fld real8 ptr [edx] 指令 加 载 到 x87 
FPU 寄存 器 栈 中 。fsub st(0), st(2) 指令 从 当前 数组 元 素 中 减 去 之 前 计算 的 均值 ， 并 将 差 值 存 
入 到 ST(0) 中 。 然 后 再 使 用 fmul st(0), st(0) 指令 对 差 值 求 平方 ， 并 使 用 faddp 指令 对 方差 求 
和 。 求 和 循环 重复 执行 ， 直 到 数组 中 每 个 元 素 都 被 处 理 。 

在 求 和 循环 完成 后 ，x87 FPU 寄存 器 栈 中 包含 两 个 值 : ST(0) 中 包含 了 总 和 ，ST(1) 中 
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包含 了 样本 均值 。 这 个 函数 使 用 fidiv dword ptr [ebp-4] 指令 计算 样本 方差 。 回 想 一 下 ， 内 
存 位 置 [ebp-4] 包含 值 n-1， 是 在 之 前 验证 n 的 过 程 中 产生 的 。 继 续 样本 方差 的 计算 ， 函数 
使 用 fsqrt ( 开 方 ) 指令 计算 最 终 的 样本 标准 偏差 ， 此 指令 将 ST(0) 中 的 值 开 方 后 存 人 ST(0) 
x87 FPU 寄存 器 栈 中 现在 包含 两 个 值 : ST(0) 中 的 样本 标准 偏差 和 ST(1) 中 的 样本 均值 。 
调用 者 使 用 fstp 指令 将 这 些 值 从 x87 FPU 堆栈 移 存 至 指定 的 内 存 位 置 。 输 出 4-3 显示 了 示例 
程序 CaleMeanStdev 的 结果 。 


"n. 


输出 4-3 示例 程序 CalcMeanStdev 


mean1: 35.2 stdev1: 29.8358 
mean2: 35.2 stdev2: 29.8358 


本 节 的 第 二 个 示例 程序 称 为 CalcMinMax， 用 来 寻找 单 精 度 浮 点 数组 的 最 大 值 和 最 小 


， C++ 和 汇编 语言 文件 分 别 如 清单 4-7 和 清单 4-8 所 示 。 


清单 4-7 CalcMinMax.cpp 


#include "stdafx.h" 
#include «float.h» 


extern "C" bool CalcMinMax (const float* a, int n, float* min, float* max); 


bool CalcMinMaxCpp(const float* a, int n, float* min, float* max) 


int 


if (n <= 0) 
return false; 


float min a - FLT MAX; 
float max a - -FLT MAX; 


for (int i = 0; i« n; i++) 


if (a[i] < min a) 
min a - a[i]; 
if (a[i] » max a) 
max a = a[i]; 

) 


*min - min a; 
*max - max a; 
return true; 


_tmain(int argc, TCHAR* argv[]) 


float a[] = ( 20, -12, 42, 97, 14, -26, 57, 74, -18, 63, 34, -9}; 
const int n = sizeof(a) / sizeof(float); 
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float mini, maxi; 
float min2, max2; 


CalcMinMaxCpp(a, n, &mini, &max1); 
CalcMinMax (a, n, &min2, &max2); 


for (int i = 0; i < n; i++) 
printf("a[X2d] = %8.2f\n", i, a[i]); 


printf("\n"); 
printf("mini: %8.2f maxi: %8.2f\n", mini, maxi); 
printf("min2: %8.2f max2: %8.2f\n", min2, max2); 


} 
清单 4-8 CalcMinMax_.asm 
.model flat,c 
.const 
r4 MinFloat dword Off7fffffh ;最 小 浮 点 数 
r4 MaxFloat dword 7f7fffffh ;最 大 浮 点 数 
.code 


; extern "C" bool CalcMinMax (const float* a, int n, float* min, float*e 
max); 


; 描述 : 计算 单 精 度 浮 点 数组 中 的 最 大 值 和 最 小 值 
; 返回 : 0 


= 'n' 无 效 

; 1 = 'n' 有效 
CalcMinMax_ proc 
push ebp 


mov ebp,esp 


; 载 入 参数 值 并 确保 'n' 有 效 


XOT eax,eax ;设置 返回 错误 码 
mov edx, [ebp+8] ;edx = "a 
mov ecx, [ebp+12] ;ecx - mi 
test ecx,ecx 
jle Done 如果 'n' <= 0 则 跳 转 
fld [r4 MinFloat] ;初始 化 max_a 值 
fld [r4 MaxFloat] ;初始 化 min_a fA 

; 寻找 输入 数组 中 的 最 大 值 和 最 小 值 

Gà: fld real4 ptr [edx] ;加 载 *a 
fld st(0) ;复制 栈 上 的 *a 
fcomi st(0),st(2) ;把 *a 和 min_a 比较 
fcmovnb st(0),st(2) ;保证 ST(0) 中 包含 最 小 值 
fstp st(2) ;保存 新 的 最 小 值 
fcomi st(0),st(2) ;比较 *a 和 max_a 
fcmovb st(0),st(2) ;确保 ST(0) 包含 最 大 值 
fstp st(2) ;保存 新 的 最 大 值 
add edx,4 ;指向 a[i] 的 下 一 元 素 
dec ecx 
jnz @B ;重复 循环 直到 结束 

; 保存 结果 


mov eax, [ebp+16] 


3 
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fstp real4 ptr [eax] ;保存 最 终 的 最 小 值 
mov eax, [ebp+20] 

fstp real4 ptr [eax] ;保存 最 终 的 最 大 值 
mov eax,1 ;设置 成 功 的 返回 码 


Done: pop ebp 
ret 

CalcMinMax endp 
end 


在 进行 了 n 值 的 有 效 性 验证 之 后 ，CalcMinMax 使 用 指令 fld [r4 MinFloat] 来 初始 化 
x87 FPU 寄存 器 栈 上 的 max_a。 接 着 使 用 指令 fld [rd MaxFloat] 初始 化 变量 min a。 内 存 操 
作 数 [r4 MinFloat] 和 [rd MaxFloat] 在 .const 区 定义 ， 它 们 是 以 十 六 进 制 编码 表示 的 x87 
FPU 支持 的 最 小 和 最 大 的 单 精 度 浮 点 数值 。 

循环 处 理 中 ，CalcMiniMax 首先 使 用 fld real4 ptr[edx] 
和 fld st(0) 指令 把 当前 的 数组 元 素 拷贝 两 份 并 存储 在 x87 FPU 
寄存 器 栈 上 。 执 行 完 这 些 指令 后 ，x87 FPU 寄存 器 栈 上 包含 了 
ali], ali], min a Ñ max a， 如 图 4-3 所 示 。 指 令 fcomi st(0), st(2) 
H$ ali] 和 min a， 并 设置 EFLAGS 中 的 状态 标志 。 条 件 转 
移 指令 fcmovnb st(0), st(2) ( 浮 点 条 件 转 移 ) 将 确保 ST(0) 中 
包含 这 两 个 值 中 的 较 小 者 。 然 后 ， 指 令 fstp st(2) 将 ST(0) 15 
贝 至 ST(2) 并 且 弹 出 x87 FPU 寄存 器 栈 ， 堆 栈 上 min a 的 值 " 
也 被 更 新 。 在 此 指令 执行 后 ，x87 FPU 寄存 器 栈 上 有 afil、 图 43 执行 指令 fd st(0) 之 后 
min a 和 max a. x87 寄存 器 栈 的 内 容 

CaleMiniMax 使 用 类 似 的 一 系列 指令 来 更 新 max a 的 值 。 指 令 fcomi st(0), st(2) 比较 
ali] 与 max a， 指令 fcmovb st(0), st(2) 保证 ST(0) 中 包含 较 大 值 。 然 后 ， 指 令 fstp st(2) 更 新 
x87 FPU 寄存 器 栈 上 的 max_a。 在 循环 处 理 完成 后 ，x87 FPU 寄存 器 栈 上 包含 了 最 终 的 min a 
和 max_a。 这 些 值 随后 被 保存 到 相应 的 内 存 位 置 。 运 行 CaleMinMax 程序 的 结果 见 输出 4-4。 


<— TOS 





输出 4-4 示例 程序 CalcMinMax 


a[ 0] = 20.00 
a[ 1] = -12.00 
a[ 2] = 42.00 
a[ 3] = 97.00 
al 4] = 14.00 
a[ 5] =  -26.00 
a[ 6] = 57.00 
a[ 7] = 74.00 
a[ 8] = -18.00 
a[ 9] = 63.00 
a[10] = 34.00 
a[11] = -9.00 


mini: -26.00 maxi: 97.00 
min2: -26.00 max2: 97.00 


4.2.2 超越 指令 (超越 函数 指令 ) 
接 下 来 的 示例 程序 名 为 ConvertCoordinates， 它 演示 了 如 何 使 用 x87 FPU 的 超越 指令 。 
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程序 中 包含 了 几 个 对 直角 坐标 和 极 坐 标 进行 坐标 转换 的 函数 。 清 单 4-9 和 清单 4-10 分 别 包 
含 了 该 示例 程序 的 C++ 和 汇编 代码 。 


清单 4-9 ConvertCoordinates.cpp 
#include "stdafx.h" 


extern "C" void RectToPolar (double x, double y, double* r, double* a); 
extern "C" void PolarToRect (double r, double a, double* x, double* y); 


int tmain(int argc, TCHAR* argv[]) 


{ 
double x1[] e { 0, 3, -3, 4, -4 h 
double yi] = { 0,3, -3, 4, -4 好 
const int nx = sizeof(x1) / sizeof(double); 
const int ny - sizeof(y1) / sizeof(double); 
for (int i = 0; i < ny; i++) 
for (int j = 0; j < nx; j++) 
double r, a, x2, y2; 
RectToPolar (xi[i], y1[j], &r, 8a); 
PolarToRect (r, a, 8x2, 8y2); 
printf("[%d, Xd]: ", i, j); 
printf("(48.41f, %8.41f) ", x1[i], y1[j]); 
printf("(%8.41f, %10.41f) ", r, a); 
printf("(%8.41f, X8.41f)Wn", x2, y2); 
} 
} 
return 0; 
} 


清单 4-10 ConvertCoordinates_.asm 


.model flat,c 
.const 
DegToRad real8 0.01745329252 
RadToDeg real8 57.2957795131 
.code 


; extern "C" void RectToPolar (double x, double y, double* r, double* a); 
j 
; 描述 : 把 直角 坐标 转换 为 极 坐标 
RectToPolar proc 
push ebp 


mov ebp,esp 


> 计算 角度 。 注 意 fpatan 指令 计算 的 是 atan2(ST(1)/ST(0)) 


fld real8 ptr [ebp+16] ;加 载 y 

fld real8 ptr [ebp+8] ;加 载 x 

fpatan ;计算 atan2 (y/x) 
fmul [RadToDeg] ;角度 值 转换 为 弧度 值 
mov eax, [ebp+28] 

fstp real8 ptr [eax] ;保存 角度 


; 计算 半径 
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fld real8 ptr [ebp+8] ;加 载 x 

fmul st(0),st(0) 3X * x 

fld real8 ptr [ebp+16] ;加 载 y 

fmul st(0),st(0) y * oy 

faddp 3x * x ey * y 

fsqrt ;sqrt(x * x + y * y) ( 求 平方 根 ) 
mov eax, [ebp+24] 

fstp real8 ptr [eax] ;保存 半径 

pop ebp 

ret 


RectToPolar endp 
; extern "C" void PolarToRect (double r, double a, double* x, double* y); 
; 描述 : 把 极 坐标 转换 为 直角 坐标 
PolarToRect proc 
push ebp 


mov ebp,esp 


; 计算 sin(a) fll cos(a) 
; 指令 fsincos 执行 完 后 ,ST(0) = cos(a), ST(1) = sin(a) 


fld real8 ptr [ebp+16] ;加 载 角度 值 
fmul [DegToRad] ;角度 值 转换 为 弧度 值 
fsincos ;计算 sin(ST(0)) #1 cos(ST(0)) 
fmul real8 ptr [ebp+8] 3x = I * cos(a) 
mov eax, [ebp+24] 
fstp real8 ptr [eax] ;保存 x 
fmul real8 ptr [ebp+8] jy = f * sin(a) 
mov eax, [ebp+28 ] 
fstp real8 ptr [eax] ;保存 y 
pop ebp 
ret 

PolarToRect endp 
end 


在 开始 阅读 代码 前 ， 让 我 们 快速 回顾 一 下 二 维 坐标 系 的 基础 知识 。 一 个 二 维 屏幕 上 的 点 
可 以 用 (x, y) 坐标 唯一 指定 , 值 x* 和 yy 分 别 表示 点 到 两 个 垂直 轴 的 距离 。 有 序 对 (x, y) 被 
称 为 直角 坐标 或 笛 卡 儿 坐 标 。 在 二 维 平面 上 的 点 也 可 以 由 半径 矢量 ”和 角度 6 唯一 表示 ， 如 
图 4-4 所 示 ， 有 序 对 Cr, 0) 被 称 为 极 坐标 。 

转换 直角 坐标 和 极 坐标 可 以 使 用 下 面 的 公式 : 

r2 dày 0—atan2(yx), 其 中 -和 0 三 +X 
x 7 rcos(0) y = rsin(0) 

文件 ConvertCoordinates .asm FES T PAX RectToPolar_, 
此 函数 可 以 把 直角 坐标 转换 为 极 坐标 。 在 函数 序言 之 后 ， 
参数 yY 和 x 被 两 条 fld 指令 加 载 到 寄存 器 栈 上 。 下 一 条 
指令 fpatan (反正 切 ) 计算 atan2(st(1)/st(0))， 把 求 得 的 角 
度 结果 存储 在 ST(1)， 并 弹出 x87 FPU 堆栈 。 指 令 fmul 
[RadToDeg] 把 弧度 单位 转换 为 角度 单位 ， 存 储 在 ST(0) 
中 。 完 成 后 极 坐 标 角 度 保存 在 调用 者 指定 的 内 存 位 置 。 图 4-4 用 直角 坐标 和 极 坐标 表示 点 
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r 值 的 计算 方法 如 下 : 指令 fld real8 ptr [ebp+8] 把 x 加 载 到 x87 FPU 堆栈 中 ，x 的 平方 
数 是 使 用 指令 fmul st(0), st(0) 来 计算 的 。 然 后 使 用 同样 的 指令 序列 计算 y 的 平方 数 。 通 过 
faddp 指令 将 平方 数 相 加 ， 最 后 通过 指令 fsqrt 得 到 最 终 的 半径 值 r， 然 后 将 其 存储 在 指定 的 
内 存 位 置 。 

函数 RectToPolar HJ kz pki MH PolarToRect 。 首 先 通过 指令 fld real8 ptr [ebp+16] 把 
极 坐 标 角 度 值 加 载 到 x87 FPU 寄存 器 栈 中 。 把 角度 单位 转换 为 弧度 单位 是 通过 指令 fmul 
[DegToRad] 来 实现 的 。 之 后 使 用 指令 fsincos (正弦 和 余弦 ) 计算 ST(0) 的 正弦 和 余弦 值 。 此 
指令 完成 后 ， 正 弦 和 余弦 值 分 别 存 储 在 ST(0) 和 STA) 中 。 补 充 一 下 ，x87 FPU 也 包含 指令 
fsin 和 fcos， 然 而 ， 当 两 个 值 都 需要 时 ， 使 用 fsincos 指令 更 快 些 。 

指令 fmul real8 ptr [ebp+8] 把 极 坐标 半径 乘 以 角度 的 余弦 值 ， 得 到 直角 坐标 的 x 值 ， 将 
其 存储 在 指定 的 内 存 位 置 。 使 用 类 似 的 指令 序列 ， 把 极 坐 标 半径 乘 以 角度 的 正弦 值 ， 得 到 直 
角 坐 标的 y 值 。 输 出 4-5 显示 了 示例 程序 ConvertCoordinates 的 运行 结果 。 


输出 4-5 “示例 程序 ConvertCoordinates 


[0, 0]: ( 0.0000, 0.0000) ( 0.0000, 0.0000) ( 0.0000, 0.0000) 
[0, 1]: ( 0.0000, 3.0000) ( 3.0000, 90.0000) ( -0.0000, 3.0000) 
[0, 2]: ( 0.0000, -3.0000) ( 3.0000,  -90.0000) ( -0.0000, -3.0000) 
[0, 3]: ( 0.0000, 4.0000) ( 4.0000, 90.0000) ( -0.0000, 4.0000) 
[0, 4]: ( 0.0000, -4.0000) ( 4.0000,  -90.0000) ( -0.0000, -4.0000) 
[1, 0]: ( 3.0000, 0.0000) ( 3.0000, 0.0000) ( 3.0000, 0.0000) 
[1, 1]: ( 3.0000, 3.0000) ( 4.2426, 45.0000) ( 3.0000, 3.0000) 
[1, 2]: ( 3.0000, -3.0000) ( 4.2426,  -45.0000) ( 3.0000, -3.0000) 
[1, 3]: ( 3.0000, 4.0000) ( 5.0000, 53.1301) ( 3.0000, 4.0000) 
[1, 4]: ( 3.0000, -4.0000) ( 5.0000,  -53.1301) ( 3.0000, -4.0000) 
[2, 0]: ( -3.0000, 0.0000) ( 3.0000, 180.0000) ( -3.0000, -0.0000) 
[2, 1]: ( -3.0000, 3.0000) ( 4.2426, 135.0000) ( -3.0000, 3.0000) 
[2, 2]: ( -3.0000, -3.0000) ( 4.2426, -135.0000) ( -3.0000, -3.0000) 
[2, 3]: ( -3.0000, 4.0000) ( 5.0000, 126.8699) ( -3.0000, 4.0000) 
[2, 4]: ( -3.0000, -4.0000) ( 5.0000, -126.8699) ( -3.0000, -4.0000) 
[3, 0]: ( 4.0000, 0.0000) ( 4.0000, 0.0000) ( 4.0000, 0.0000) 
[3, 1]: ( 4.0000, 3.0000) ( 5.0000, 36.8699) ( 4.0000, 3.0000) 
[3, 2]: ( 4.0000, -3.0000) ( 5.0000,  -36.8699) ( 4.0000, -3.0000) 
( 


A 4.0000, 4.0000) ( 5.6569, 45.0000) ( 4.0000, 4.0000) 
[3, 4]: ( 4.0000, -4.0000) ( 5.6569, -45.0000) ( 4.0000, -4.0000) 
[4, 0]: ( -4.0000, 0.0000) ( 4.0000, 180.0000) ( -4.0000, -0.0000) 
[4, 1]: ( -4.0000, 3.0000) ( 5.0000, 143.1301) ( -4.0000, 3.0000) 

( -4.0000, -3.0000) ( 5.0000, -143.1301) ( -4.0000, -3.0000) 
[4, 3]: ( -4.0000, 4.0000) ( 5.6569, 135.0000) ( -4.0000, 4.0000) 
[4, 4]: ( -4.0000, -4.0000) ( 5.6569, -135.0000) ( -4.0000, -4.0000) 


4.23 栈 的 高 级 应 用 


目前 为 止 的 示例 程序 都 没有 特意 强调 x87 寄存 器 栈 的 限制 ， 在 最 后 的 x87 FPU 示例 程 
Ff CalcLeastSquares 中 将 着 重 讨论 这 一 点 。CalcLeastSquares 演示 如 何 使 用 x87 FPU 计算 最 
小 二 乘法 拟 合 直线 ， 相 应 的 源 代 码 在 CalcLeastSquares.cpp 和 CaleLeastSquares .asm 中 ， 如 
清单 4-11 和 清单 4-12 所 示 。 


清单 4-11 CalcLeastSquares.cpp 





#include "stdafx.h" 
#include «math.h» 
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extern "C" double LsEpsilon ; 
extern "C" bool CalcLeastSquares (const double* x, const double* y, int n, 
double* m, double* b); 


bool CalcleastSquaresCpp(const double* x, const double* y, int n, double* m,~ 
double* b) 


if (n <= 0) 
return false; 


double sum x = 0; 
double sum y - 0; 
double sum xx - 0; 
double sum xy - 0; 


for (int i = 0; i < n; i++) 


{ 
sum x += x[i]; 
sum xx += x[i] * x[i]; 
sum xy += x[i] * y[i]; 
sum y += yli]; 

} 


double denom = n * sum_xx - sum_x * sum_x; 


if (LsEpsilon >=fabs(denom) ) 
return false; 
*m = (n * sum_xy - sum_x * sum_y) / denom; 
*b = (sum_xx * sum_y - sum_x * sum_xy) / denom; 
return true; 


} 


int _tmain(int argc, TCHAR* argv[]) 
( 
const int n = 7; 
double x[n] = ( 0, 2, 4, 6, 8, 10, 12); 
double y[n] = { 51.125, 62.875, 71.25, 83.5, 92.75, 101.1, 110.5 }; 
double m1 = 0, m2 = 0; 
double b1 = 0, b2 = 0; 
bool rci, rc2; 


rci 
rc2 


CalcLeastSquaresCpp(x, y, n, &m1, &b1); 
CalcLeastSquares (x, y, n, &m2, 8b2); 


for (int i = 0; i < n; i++) 
printf("%12.41f, %12.41f\n", x[i], y[i]); 


printf("\n"); 

printf("rci: Xd mi: %12.41f b1: %12.41f\n", rci, m1, bi); 
printf("rc2: Xd m2: %12.41f b2: %12.41f\n", rc2, m2, b2); 
return 0; 


i85 4-12  CalcLeastSquares .asm 
.model flat,c 
.const 


public LsEpsilon 


LsEpsilon real8 1.0e-12 ;验证 denom 值 的 有 效 性 
«code 


; extern "C" bool CalcLeastSquares_(const double* x, const double* y, int n, 
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double* m, double* b); 
> 描述 : 计算 最 小 二 乘法 拟 合 直线 的 斜率 和 截 距 


, 


; 返回 : 0 = 出 错 

; 1 = 成 功 

CalcLeastSquares proc 
push ebp 
mov ebp,esp 
sub esp,8 ; 预 留 给 内 部 变量 denom 的 空间 
xor eax,eax ; 预 置 错误 的 返回 码 
mov ecx, [ebp+16] ;n 
test ecx,ecx 
jle Done ;如 n <= 0， 跳 转 
mov eax, [ebp+8] ;指向 x 
mov edx, [ebp+12] ;指向 y 


; 初始 化 所 有 和 变量 为 0 


fldz ;Sum xx 
fldz 3 Sum_xy 
fldz ;sum y 
fldz ;sum x 


;STACK: sum x, sum y, sum xy, sum xx 


@0: fld real8 ptr [eax] ;加 载 下 一 个 x 
fld st(0) 
fld st(0) 
fld real8 ptr [edx] ;加 载 下 一 个 y 
3STACK: y, X, X, X, sum x, sum y, sum xy, sum xx 
fadd st(5),st(0) ;sum y += y 
fmulp 
;STACK: xy, x, X, sum xm sum y, sum xy, sum xx 
faddp st(5),st(0) ;sum Xy += xy 
3 STACK: x, x, sum x, sum y, sum xy, sum xx 
fadd st(2),st(0) jsum x += X 
fmulp 


;STACK: xx, sum x, sum y, sum xy, sum xx 


faddp st(4),st(0) ;SUm XX += XX 
;STACK: sum x, sum y, sum xy, sum xx 


; 更 新 指针 并 重复 循环 ， 直 到 每 个 元 素 都 被 处 理 
add eax,8 
add edx,8 
dec ecx 
jnz GB 


; 计算 denom = n * sum xx - sum x * sum x 

fild dword ptr [ebp+16] jn 

fmul st(0),st(4) ;n * sum xx 
;STACK: n * sum xx, sum x, sum y, sum xy, sum xx 


fld st(1) 
fld st(0) 
;STACK: sum x, sum x, n * sum xx, sum x, sum y, sum xy, sum xx 


fmulp 
fsubp 
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fst real8 ptr [ebp-8] ;保存 denom 
;STACK: denom, sum x, sum y, sum xy, sum xx 


; 验证 denom 值 是 否 有 效 


fabs ;fabs (denom) 

fld real8 ptr [LsEpsilon ] 

fcomip st(0),st(1) ;比较 epsilon 和 fabs(demon) 

fstp st(0) ;从 栈 中 移 除 fabs (denom) 

jae InvalidDenom ;如 果 LsEpsilon ”>=fabs (denom)， 则 跳 转 


;STACK: sum x, sum y, sum xy, sum xx 


; 计算 斜率 slope = (n * sum xy - sum x * sum y) / denom 
fild dword ptr [ebp+16] 
;STACK: n, sum x,^sum y, sum xy, sum xx 


fmul st(0),st(3) ;n * sum xy 

fld st(2) ;sum y 

fld st(2) ;Sum x 

fmulp ;sum x * sum y 

fsubp ;n * sum xy - sum x * sum y 
fdiv real8 ptr [ebp-8] ;计算 斜率 

mov eax, [ebp+20] 

fstp real8 ptr [eax] ;保存 斜率 


;STACK: sum x, sum y, Sum xy, sum xx 


; 计算 截 距 intercept = (sum xx * sum y - sum x * sum xy) / denom 
fxch st(3) 
;STACK: sum xx, sum y, sum xy, Sum x 


fmulp 
fxch st(2) 
;STACK: sum x, sum xy, sum xx * sum y 


fmulp 
fsubp 
;STACK: sum xx * sum y - sum x * sum xy 


fdiv real8 ptr [ebp-8] ;计算 截 距 

mov eax, [ebp+24] 

fstp real8 ptr [eax] ;保存 截 距 

mov eax,1 ;设置 成 功 返 回 码 


Done: mov esp,ebp 


pop ebp 
127 ret 


InvalidDenom: 

; 清除 x87 FPU 寄存 器 栈 
fstp st(0) 
fstp st(0) 
fstp st(0) 
fstp st(0) 
xor eax,eax ;设置 错误 返回 码 
mov esp,ebp 
pop ebp 
ret 

CalcLeastSquares endp 
end 


简单 线性 回归 是 一 种 对 两 个 变量 进行 线性 建 模 的 统计 方法 。 最 常见 的 是 最 小 二 乘 拟 合 ， 
它 针 对 两 个 变量 的 一 组 样本 数据 ， 确 定 最 佳 的 拟 合 曲线 。 在 简单 线性 回归 模型 中 ， 使 用 的 曲 
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线 是 直线 ， 其 方程 为 y=mx+b。 在 此 公式 中 ,x ERARE, y 表示 因 变 量 (或 测量 变量 ), m 
为 直线 的 斜率 ，b 是 直线 在 轴 上 的 截 距 。 最 小 二 乘 直线 的 斜率 和 截 距 是 计算 样本 点 和 直线 
间 最 小 误差 平方 和 得 到 的 。 通 过 计算 出 的 斜率 和 截 距 ， 最 小 二 乘 直 线 经 常用 于 在 x 值 已 知 的 
情况 下 求 y 值 。 如 果 有 兴趣 了 解 更 多 关于 简单 线性 回归 和 最 小 二 乘 拟 合 ， 请 查阅 附录 C 中 列 


出 的 资源 。 


在 示例 程序 CalcLeastSquares 中 ， 下 面 的 公式 用 来 计算 最 小 二 乘 斜 率 和 截 距 点 : 


m 


me(j oo mm 


第 一 眼看 去 ， 斜 率 和 截 距 公式 可 能 会 让 人 感到 有 些 困 难 。 然 而 ， 仔 细 查 看 一 下 ， 经 过 一 
系列 的 简化 ， 公 式 的 运作 方式 会 变 得 明显 。 首 先 ， 计 算 斜 率 和 截 距 的 分 母 是 相同 的 ， 这 意味 
着 该 值 只 需要 计算 一 次 。 其 次 ， 仅 需要 计算 四 个 简单 的 求 和 量 (或 求 和 变量 )， 如 下 所 示 : 


sum x29? x, sum y=} y, 
i i 


sum xy- Y xy, sum xx=}, xi 
随后 计算 变量 总 和 以 及 最 小 二 乘 斜 率 和 截 距 ， 使 用 的 都 是 比较 简单 的 乘法 、 减 法 和 


除法 。 


函数 CalcLeastSquares_ 使 用 了 x87 FPU 的 所 有 八 个 寄存 器 ， 因 此 某 种 程度 上 比 本 章 其 
他 的 示例 程序 更 复杂 些 。 当 编写 使 用 超过 四 个 x87 FPU 寄存 器 栈 的 函数 时 ， 建 议 在 代码 中 用 
注释 来 注 明 值 保存 在 哪个 寄存 器 上 。 在 清单 4-12 中 ， 以 STACK 字样 开头 的 注释 表示 的 是 在 
执行 完 上 一 条 指令 后 x87 FPU 寄存 器 栈 包含 的 内 容 。 这 些 内 容 以 ST(0) Fi, UMARTE 


底 的 方式 排列 。 


让 我 们 读 一 下 函数 CalcLeastSquares_ 的 源 代码 。 在 进行 了 n 值 的 有 效 性 检查 之 后 ， 一 
组 fldz 指令 把 sum x、sum y、sum xy 和 sum xx 初始 化 为 0.0。 上 一 句 话 中 这 些 和 变量 的 
顺序 代表 了 它们 在 x87 FPU 寄存 器 栈 中 的 位 置 从 行 ST(0) 开始 。 这 个 顺序 在 执行 循环 处 理 时 
不 会 改变 , 但 是 和 变量 相对 于 栈 项 的 位 置 是 会 变化 的 。 以 x87 FPU 寄存 器 栈 保存 中 间 值 会 略 
微 增加 算法 的 复杂 性 ， 但 相 比 使 用 内 存 作为 中 间 值 ， 性 能 要 更 好 。 

在 初始 化 和 变量 为 0.0 之 后 ， 函 数 进 入 了 循环 ， 重 复 进行 数据 传送 并 且 计算 和 变量 。 在 


循环 开始 的 时 候 ， 使 用 一 组 fld 指令 把 当前 的 x 值 和 y 
值 加 载 到 x86 FPU 寄存 器 栈 中 。 执 行 完 这 些 指令 后 ， 
x87 FPU 的 寄存 器 栈 已 经 完全 满 了 ， 如 图 4-5 所 示 
(如 果 有 另外 一 个 值 被 载 入 x87 FPU 的 寄存 器 栈 ， 
sum xx 的 值 将 会 丢失 )。 然 后 使 用 一 系列 的 浮 点 加 法 
和 乘法 运算 计算 和 变量 。 注 意 某 些 fadd 指令 使 用 了 不 
是 ST(0) 的 目标 操作 数 。 同 样 需要 特别 注意 的 是 ， 在 
计算 的 时 候 ， 和 变量 在 栈 上 的 相对 位 置 也 在 改变 。 上 
面 的 迭代 循环 完成 后 ，x87 FPU 的 栈 上 包含 了 四 个 和 
变量 的 最 终 值 。 

接着 计算 斜率 和 截 距 公 式 中 的 共用 分 母 (denom)。 





图 4-5 在 执行 完 指令 fld real8 ptr [edx] 
之 后 的 x87 FPU 栈 的 内 容 
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这 要 求 函 数 计算 两 个 中 间 值 n*sum xx 和 sum x*sum x， 它 使 用 了 fld 和 fmul 的 变种 指令 。 
计算 完成 后 ， 用 前 者 减 去 后 者 ， 得 到 最 终 的 分 母 值 ， 保 存 到 x86 栈 的 临时 局 部 变量 中 。 在 
进行 下 一 次 计算 前 ， 会 验证 此 值 ， 以 防止 产生 除 0 错误 。 如 果 分 母 无 效 ， 程 序 会 跳 转 到 函数 
CalcLeastSuares_ 结 尾 附近 的 一 段 代 码 中 ， 清 理 x87 FPU 栈 ， 同 时 寄存 器 EAX 载 和 人 适当 的 
错误 代码 ， 返 回 给 调用 者 。 

得 到 分 母后 ， 函 数 计算 出 最 小 二 乘 斜 率 。 在 计算 斜率 的 过 程 中 ,在 x87 FPU 栈 上 的 和 
变量 的 顺序 一 直 保 持 着 ， 因 为 在 计算 截 距 的 过 程 中 需要 它们 。 和 斜率 被 保存 在 调用 者 指定 的 内 
存 位 置 。 计 算 最 小 二 乘 截 距 的 时 候 ， 需 要 用 两 个 fxch 指令 。 这 样 做 的 原因 是 ， 所 有 的 x87 
FPU 计算 指令 必须 显 式 或 者 隐 式 地 使 用 STO) 作为 操作 数 。 最 后 的 fstp 指令 把 截 距 值 保存 
在 调用 者 指定 的 内 存 位 置 ， 同 时 产生 一 个 空 的 x87 FPU 寄存 器 栈 。 输 出 4-6 显示 了 示例 程序 
CalcLeastSquares 的 执行 结果 。 


输出 4-6 ”示例 程序 CalcLeastSquares 
0.0000， 51.1250 


2.0000, 62.8750 

4.0000, 71.2500 

6.0000, 83.5000 

8.0000, 92.7500 

10.0000, 101.1000 

12.0000, 110.5000 
rele 4 mi 4.9299 b1: 52.2920 
ica: 4 qms 4.9299 b2: 52.2920 
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在 本 章 中 ， 我 们 进一步 学 习 了 x87 FPU 的 架构 以 及 如 何 利 用 这 些 资源 进行 各 种 浮 点 运 
算 。 与 x86 的 通用 寄存 器 不 同 ， 在 对 x87 编程 的 时 候 ， 需 要 不 同 的 思维 方式 才能 有 效 地 使 用 
x87 FPU 的 栈 结构 寄存 器 组 。 随 着 你 在 这 种 架构 上 编程 经 验 的 不 断 增长 ， 这 种 思维 变化 会 逐 
步 进 入 你 的 潜意识 。 

如 果 你 熟悉 x86-SSE 的 标量 浮 点 功能 ， 你 可 能 会 质疑 本 书 为 什么 会 花 这 么 多 的 篇 幅 
来 介绍 一 个 许多 人 认为 过 时 的 架构 。 这 样 做 有 几 个 原因 。 首 先 ， 必 须 承认 在 可 预见 的 未 
来 ， 仍 有 相当 多 的 旧 代 码 使 用 x87 FPU 架构 和 指令 。 其 次 ， 即 使 编译 髓 配置 为 使 用 SSE2 
指令 产生 浮 点 代码 ，Visual C++ 的 32 位 程序 调用 约定 仍然 采用 x87 FPU 寄存 器 栈 保存 浮 
点 返回 值 。 这 意味 着 程序 员 必 须 至 少 要 对 x87 FPU 有 一 个 基本 的 理解 。 最 后 一 个 理由 ， 诸 
如 Intel Quark 之 类 的 超 低 功 耗 微 处 理 器 架构 并 不 提供 x86-SSE 浮 点 处 理 资 源 。 对 Quark 或 
者 其 他 类 似 平台 的 开发 商 而 言 ， 除 了 在 代码 中 使 用 x87 FPU 来 进行 浮 点 运算 外 ， 没 有 其 他 
选择 。 


| 第 5 章 


Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


MMX 技术 


第 1 章 到 第 4 章 集中 讨论 了 x86-32 平 台 的 基本 功能 。 你 学 习 了 x86 的 基本 数据 类 型 、 
通用 寄存 器 、 内 存 寻 址 模式 以 及 x86-32 的 核心 指令 集 。 你 还 学 习 了 许多 示例 代码 ， 它 们 展 
zh f x86 汇编 语言 编程 的 基本 要 点 ,包括 基本 操作 数 、 整 型 运算 、 比 较 运 算 、 条 件 跳 转 以 及 
常见 数据 结构 的 操作 。 第 3 章 和 第 4 章 分 析 了 x87 FPU 的 架构 ， 包 括 栈 形式 的 寄存 器 组 以 及 
如 何 使 用 汇编 语言 进行 浮 点 运算 。 

接 下 来 的 十 二 章 我 们 将 集中 讨论 x86 平 台 的 单 指令 多 数据 (SIMD) 功能 。 本 章 首 
先 介绍 x86 的 第 一 个 SIMD 扩 展 一 -MMX 技术 。MMX 技 术 为 x86 平 台 增 加 了 整数 
SIMD 处 理 的 能 力 。 本 章 首 先 会 以 一 些 基本 的 SIMD 处 理 概 念 开篇 。 接 下 来 会 描述 一 下 
回 绕 (wraparound) 和 饱和 (saturated) 整 型 运算 的 区 别 以 及 后 者 的 使 用 场景 。 之 后 会 讨 
i£ MMX 执行 环境 ， 包 括 它 的 寄存 器 组 和 支持 的 数据 类 型 。 最 后 会 对 MMX 指令 集 做 一 个 
总 结 。 

MMX 技术 为 后 续 的 x86 SIMD 扩展 (包括 x86-SSE 和 x86-AVX) 奠定 了 一 个 基础 ， 我 
们 将 会 在 第 7 章 到 第 16 章 对 x86 SIMD 扩展 进行 讨论 。 如 果 你 的 终极 目标 是 编写 一 个 使 用 
那些 最 新 SIMD 扩展 的 软件 ， 那 么 我 们 强烈 建议 你 先 认 真 学 习 一 下 本 章 的 内 容 ， 因 为 这 最 终 
会 减少 你 在 x86 SIMD 学 习 过 程 中 所 花 的 总 时 间 。 


5.1 SIMD 处 理 概 念 


在 讨论 MMX 技术 的 特点 之 前 ， 本 节 先 介绍 一 下 基本 的 SIMD 处 理 概念 。 正 如 SIMD 的 
字面 意义 一 样 ， 一 个 SIMD 计算 单元 会 同时 对 多 个 数据 项 进行 同样 的 操作 。 标 准 的 SIMD 操 
作 包 括 基 本 运算 (加 法 、 减 法 、 乘 法 和 除法 )、 移 位 、 比 较 和 数据 转换 。 处 理 器 通过 解析 操 
作 数 在 寄存 器 或 者 内 存 中 的 位 模式 (bit pattern) 来 实现 SIMD 运算 。 例 如 ， 一 个 32 位 寄存 
器 能 存放 一 个 32 位 整 型 数值 ; 它 同时 也 能 


够 存放 2 个 16 位 整 型 数 或 者 4 个 8 位 整 型 T 
数 ， 如 图 5-1 所 示 。 32 位 整 型 数 


针对 图 5-1 所 示 的 位 模式 ， 完 全 有 可 
能 对 其 中 的 所 有 数据 元 素 都 执行 一 种 操作 。 


31 0 
图 5-2 中 举 了 一 个 更 加 详细 的 例子 。 图 中 
以 及 四 个 8 位 整 型 数据 的 相 加 操作 。 我 们 
可 以 看 到 ， 当 同时 使 用 多 个 数据 项 的 时 候 ， 


15 0 
并 行 地 进行 运算 。 在 图 5-2 中 ， 处 理 器 可 


以 对 要 处 理 的 操作 数 同 时 进行 16 位 或 8 位 7 07 07 07 0 
整 型 相 加 。 图 5-1 存放 不 同 大 小 整数 的 32 位 寄存 器 


= 
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134 图 5-2 SIMD 整 型 加 法 的 示例 


在 x86 平 台 上 ，MMX 技术 支持 64 位 宽 的 寄存 器 和 内 存 操作 数 。 也 就 是 说 ， 一 个 SIMD 
运算 可 以 操作 两 个 32 位 、 四 个 16 位 或 者 八 个 8 位 数据 。 此 外 ，MMX SIMD 运算 并 不 仅 限 于 
加 法 或 者 减法 这 样 的 简单 算术 运算 。 对 于 其 他 常见 的 运算 ， 如 移 位 、 布 尔 运 算 、 比 较 和 数据 
转换 也 是 支持 的 。MMX 技术 还 支持 一 些 通常 需要 好 —— cial 


几 个 指令 来 完成 的 高 级 原子 操作 。 图 5-3 演示 了 MMX 

pmaxub (无 符号 单字 节 组 合 整 型 的 最 大 值 ) 指令 所 做 33 33412195 mel 
的 运算 ， 它 利用 64 位 MM 寄存 器 来 存放 S 位 无 符号 [s 7 | 40] 89] 41] 3 | 51] 34] mmo 
整数 。 在 这 个 例子 中 ， 处 理 器 同时 比较 每 对 8 位 无 符 “” 一 ———————————————— 


号 整 型 数据 ， 将 其 中 较 大 的 数值 存放 在 目标 操作 数 中 。 “| 23 | 3 | 4 [9 | ar | 13 [si [ 34| mmi 
在 本 章 后 面 的 部 分 ， 我 们 将 进一步 介绍 MMX 指令 集 。 图 5.3 MMX pmaxub 指令 的 执行 过 程 


5.2 回 绕 和 饱和 运算 


MMX 技术 中 一 个 相当 有 用 的 功能 就 是 支持 饱和 整 型 运算 (saturated integer arithmetic). 
在 饱和 整 型 运算 中 ， 计 算 的 结果 会 被 处 理 器 自动 剪辑 ， 以 保证 数据 不 会 上 溢 或 下 溢 。 这 和 普 
通 的 整 型 回 绕 运算 不 同 ， 整 型 回 绕 运算 会 将 上 滋 或 下 溢 的 结果 保留 。 饱 和 运算 在 处 理 像 素 值 
时 特别 有 用 ， 因 为 不 再 需要 逐一 检查 每 个 像素 的 计算 结果 是 否 发 生 上 溢 或 者 下 溢 。MMX H 
术 支 持 对 8 位 和 16 位 有 符号 和 无 符号 整 型 数 做 饱和 运算 。 

让 我 们 看 几 个 回 绕 和 饱和 运算 的 例子 。 图 5-4 演示 了 对 一 个 16 位 有 符号 整数 做 加 法 的 
例子 ， 分 别 使 用 了 回 绕 运算 和 饱和 运算 。 当 使 用 回 绕 运算 进行 两 个 16 位 有 符号 整 型 数 相 加 
的 时 候 ， 产 生 了 一 个 上 溢出 ; 然而 ， 当 使 用 饱和 运算 的 时 候 ， 计 算 结 果 被 剪辑 成 了 16 位 有 
符号 整 型 数 的 最 大 值 。 图 5-5 展示 了 一 个 类 似 的 例子 ， 它 使 用 了 8 位 无 符号 整数 。 除 了 加 法 
之 外 ，MMX 技术 也 支持 饱和 整 型 减法 ， 如 图 5-6 所 示 。 表 5-1 总 结 了 相对 不 同 大 小 和 符号 

类 型 整数 做 饱和 运算 时 的 范围 边界 。 
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16 位 有 符号 整 型 加 法 
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图 5-4 16 位 有 符号 整 型 加 法 一 一 使 用 回 绕 运算 和 饱和 运算 


8 位 无 符号 整 型 加 法 
回 绕 饱和 





图 5-5 8 位 无 符号 整 型 加 法 一 一 使 用 回 绕 运算 和 饱和 运算 


16 位 有 符号 整 型 减法 


图 5-6 16 位 有 符号 整 型 减法 一 一 使 用 回 绕 运算 和 饱和 运算 


表 5-1 饱和 运算 的 范围 边界 
整数 类 型 低 边界 
8 位 有 符号 -128 (0x80) 
8 位 无 符号 0 
16 位 有 符号 -32768 (0x8000) 
16 位 无 符号 0 


5.3 MMX 执行 环境 


从 应 用 程序 的 角度 来 看 ，MMX 技术 为 x86-32 核心 平台 增加 了 
八 个 64 位 的 寄存 器 ， 取 名 为 MM0 ~ MM7， 如 图 5-7 所 示 。 利 用 
这 些 寄存 器 ， 可 以 对 八 个 8 位 整 型 、 四 个 16 位 整 型 或 两 个 32 位 整 
型 数据 做 SIMD 运算 。 而 且 ， 无 符号 和 有 符号 整数 都 是 支持 的 。 也 
可 以 使 用 MMX 寄存 器 对 64 位 整 型 做 某 些 有 限 次 的 运算 。 与 x87 
FPU 寄存 器 组 不 同 ，MMX 寄存 器 是 可 以 直接 寻 址 的 ; 没有 使 用 基 
于 栈 的 架构 。MMX 寄存 器 不 能 用 于 浮 点 运算 或 寻 址 内 存 中 的 操作 
数 。 图 5-8 展示 了 MMX 支持 的 组 合 (packed) 数据 类 型 。 


高 边界 
+127 (0x7f) 
4255 (Oxff) 
432767 (0x7ftf) 
+65535 (Oxffff) 


图 5-7 MMX 寄存 器 组 
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N+7 N+6; N+5 N+4 N+3 N+2 Ne N 
内 存 地 址 
137 图 5-8 MMX 数据 类 型 


在 x86 处 理 器 内 部 ，MMX 寄存 器 和 x87 浮 点 运算 单元 的 寄存 器 是 混和 的。 也 就 是 说 ， 
MMX 和 x87 浮 点 运算 单元 的 寄存 器 使 用 了 同一 块 存储 区 。 这 种 混 释 使 得 在 混合 使 用 MMX 和 
x87 浮 点 运算 单元 指令 时 有 一 些 限制 。 为 了 避免 MMX il x87 FPU 执行 单元 之 间 的 冲突 ， 在 从 
执行 MMX 指令 到 执行 x87 FPU 指令 转换 之 前 ，MMX 的 状态 信息 必须 通过 emms (清除 MMX 
技术 状态 ) 指令 来 清空 。 在 第 6 章 的 示例 代码 中 ， 我 们 会 更 详细 地 演示 这 一 要 求 。 如 果 没 有 正 
确 使 用 emms 指令 ， 可 能 会 导致 x87 浮 点 运算 单元 产生 一 些 意外 的 异常 或 是 无 效 的 计算 结果 。 


5.4 MMX 指令 集 

本 节 会 对 MMX 指令 集 进 行 一 个 简要 的 介绍 。 和 前 几 章 的 指令 集 概述 类 似 ， 本 节 的 目标 
是 使 读者 对 MMX 指令 集 有 一 个 基本 的 了 解 。 至 于 MMX 指令 集 详 尽 的 信息 ， 如 可 用 的 操作 
数 和 可 能 的 异常 ， 都 可 以 在 AMD 和 Intel 的 参考 手册 中 找到 。 本 书 的 附录 C 中 就 包括 了 这 
些 手册 的 列表 。 在 第 6 章 中 讨论 的 示例 代码 也 会 包含 一 些 指令 的 详细 介绍 。 

可 以 按 功 能 把 MMX 指令 集 划 分 为 以 下 八 类 : 

e 数据 传输 

e 算术 运算 

e 比较 

o 转换 

e 逻辑 和 位 移 

e 解 组 和 重 排 (shuffle) 

e 插入 和 提取 

e 状态 和 缓存 控制 

本 节 的 指令 集 概述 部 分 涵盖 了 MMX 最 初 发 布 的 所 有 指令 集 ， 同 时 也 包括 了 在 x86 SSE 
增强 版 本 (SSE、SSE2、SSE3 或 SSSE3 ) 中 新 增 的 指令 。 在 表 中 我 们 总 结 了 每 个 指令 所 需要 
的 MMX 3X x86-SSE 版 本 。 除 非特 别 注 明 ，MMX 指令 的 源 操 作 数 可 以 是 一 个 内 存 区 域 或 是 
一 个 MMX 寄存 器 ; 而 目标 操作 数 必 须 是 一 个 MMX 寄存 器 。 当 引用 一 个 内 存 区 域 时 ，MMX 
指令 能 使 用 第 1 章 中 介绍 的 任何 一 种 x86-32 寻 址 模式 。 内 存 操作 数 地 址 对 齐 不 是 必需 的 ， 然 

[138] 而 我 们 强烈 建议 进行 对 齐 ， 因 为 从 非 对 齐 的 内 存 区 域 中 读 取 数据 会 需要 多 个 时 钟 周期 。 
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注意 MMX 指令 不 会 更 新 任何 EFLAGS 寄存 器 中 的 状态 位 。 必 须 用 软件 程序 来 检查 、 
纠正 或 防止 游 在 的 错误 情况 ， 如 上 溢出 或 下 溢出 。 

大 多 数 MMX 指令 的 助 记 符 使 用 字母 b ( 字 节 )、w CE). d OF) 以 及 q (四 字 ) KER 
识 需要 处 理 元 素 的 宽度 。 


5.4.1 数据 传输 


数据 传输 指令 被 用 来 在 MMX 寄存 器 、 通 用 寄存 器 和 内 存 之 间 复 制 组 合 整 型 数据 。 表 5-2 
对 数据 传输 指令 进行 了 总 结 。 


表 5-2 MMX 数据 传输 指令 







复制 MMX 寄存 器 中 的 低位 双 字 到 一 个 通用 寄存 器 或 内 存 中 。 也 可 以 把 通用 寄存 
器 或 内 存 中 的 数据 复制 到 MMX 寄存 器 的 低位 双 字 中 
把 一 个 MMX 寄存 器 的 内 容 复制 到 另外 一 个 MMX 寄存 器 中 。 这 个 指令 也 能 被 用 
来 把 一 个 内 存 区 域 中 的 内 容 复制 到 一 个 MMX 寄存 器 中 ; 或 者 把 MMX 寄存 器 中 的 
内 容 复 制 到 内 存 中 
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542 ”算术 运算 

算术 运算 指令 被 用 来 对 组 合 操作 数 进行 基本 算术 运算 (加 法 、 减 法 以 及 乘法 )， 它 也 包 
括 了 一 些 执行 高 级 运算 的 指令 ， 如 最 小 或 最 大 、 取 平均 、 计 算 绝对 值 以 及 整数 符号 变换 。 除 
非 另行 说 明 ， 所 有 的 算术 运算 指令 都 支持 有 符号 和 无 符号 整 型 。 表 5-3 列举 了 MMX 的 算术 


运算 指令 。 


表 5-3 MMX 算术 运算 指令 






paddw 


使 用 指定 的 操作 数 进行 组 合 整 型 加 法 
paddd 






SSE2(paddq) 







用 饱和 运算 对 有 符号 组 合 整 型 进行 加 法 计算 





paddusb 
MMX 






用 饱和 运算 对 无 符号 组 合 整 型 进行 加 法 计算 












paddusw 

psubb MMX 

psubw 使 用 指定 的 操作 数 进行 组 合 整 型 减法 。 源 操作 数 存 放 减 数 ， 目 标 操作 数 存 放 

psubd 被 减 数 

psubq SSE2(psubq) 
















用 饱和 运算 对 有 符号 组 合 整 型 进行 减法 计算 。 源 操作 数 存放 减 数 ， 目 标 操作 
数 存放 被 减 数 
用 饱和 运算 对 无 符号 组 合 整 型 进行 减法 计算 。 源 操作 数 存 放 减 数 ， 目 标 操作 
数 存 放 被 减 数 
对 有 符号 组 合 整 型 进行 乘法 ， 然 后 对 结果 中 相 邻 的 数据 元 素 进行 有 符号 的 整 
型 加 法 。 这 个 指令 可 以 用 来 进行 整 型 的 点 乘 运算 
进行 一 个 组 合 整 型 乘法 ， 其 中 源 操作 数 中 存放 有 符号 的 字 节 ， 目 标 操作 数 中 
存放 无 符号 的 字 节 ， 然 后 对 产生 的 有 符号 单字 值 进 行 饱和 运算 相 加 ， 最 后 将 结 
果 存 放 在 目标 操作 数 中 


psubsb 
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psubsw 


psubusb 
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助 记 符 
将 源 操作 数 中 的 低位 双 字 与 目标 操作 数 的 低位 双 字 相 乘 ， 产 生 的 四 字 结 果 存 
i 放 在 目标 操作 数 中 
使 用 单字 值 进 行 有 符号 组 合 整 型 乘法 ， 然 后 将 每 个 双 字 乘 积 中 的 低位 单字 存 
PN 放 在 目标 操作 数 中 
cum 使 用 单字 值 进行 有 符号 组 合 整 型 乘法 ， 然 后 将 每 个 双 字 乘 积 中 的 高 位 单字 存 
di 放 在 目标 操作 数 中 
ardor 使 用 单字 值 进行 无 符号 组 合 整 型 乘法 ， 然 后 将 每 个 双 字 乘 积 中 的 高 位 单字 存 
P 放 在 目标 操作 数 中 
nm 使 用 单字 值 进行 无 符号 组 合 整 型 乘法 ， 然 后 将 双 字 乘积 伟人 到 18 位 ， 再 缩 
放 到 16 位 ， 最 后 存放 到 目标 操作 数 中 
ain 对 指定 操作 数 中 无 符号 整 型 数据 计算 组 合 平均 什 SSE 
对 两 组 无 符号 单字 节 组 合 整 型 数据 进行 比较 ， 保 存 每 个 比较 中 较 大 的 单字 节 
pmaxub 数值 SSE 
对 两 组 无 符号 单字 节 组 合 整 型 数据 进行 比较 ， 保 存 每 个 比较 中 较 小 的 单字 节 
pminub 数值 SSE 
pimuw 对 两 组 有 符号 单字 组 合 整 型 数据 进行 比较 ， 保 存 每 个 比较 中 较 大 的 单字 数值 | SSE 
i 对 两 组 有 符号 单字 组 合 整 型 数据 进行 比较 ， 保 存 每 个 比较 中 较 小 的 单字 数值 | SSE 
pabsb 
pabsw 计算 每 组 组 合 整 型 数据 元 素 中 的 绝对 值 SSSE3 
pabsd 
eid 根据 源 操 作 数 中 对 应 数据 元 素 的 符号 ， 对 目标 操作 数 中 的 每 个 有 符号 整 型 数 | 、、， 
iiie 据 进行 取 负 、 取 零 或 保持 不 变 的 操作 
psignd 
ien 对 源 操作 数 和 目标 操作 数 中 相 邻 的 数据 元 素 进 行 整 型 加 法 操作 SSSE3 
biis RUBIURUE WE, XTUERHERCR ER ECP AOR TCR TA SH | 
P 型 加 法 操作 ， 结 果 存 放 在 目标 操作 数 中 
c 对 源 操作 数 和 目标 操作 数 中 相 邻 的 数据 元 素 进行 整 型 减法 操作 SSSE3 
del: 利用 饱和 运算 ， 对 源 操作 数 和 目标 操作 数 中 相 邻 的 数据 元 素 进行 有 符号 的 整 | sss3 
P 型 减法 操作 ， 结 果 存 放 在 目标 操作 数 中 
5.4.3 比较 


MMX 的 比较 指令 会 对 两 个 组 合 操作 数 逐 个 进行 比较 ， 比 较 的 结果 存放 在 对 应 的 目标 操 
作 数 中 。 表 5-4 列举 了 MMX 的 比较 指令 。 


表 5-4 MMX 比较 指令 









逐个 元 素 比较 两 个 组 合 整 型 操作 数 是 否 相 等 。 如 果 源 操作 数 和 目标 操作 数 中 数 
据 元 素 相等 ， 则 对 应 的 目标 操作 数 中 的 数据 元 素 被 设置 为 全 1 ; 如 果 不 相等 ， 则 
目标 操作 数 中 的 数据 元 素 被 设置 为 全 0 
逐个 元 素 比 较 两 个 有 符号 组 合 整 型 操作 数 的 大 小 。 如 果 目 标 操作 数 中 数据 元 素 
较 大 ， 则 对 应 的 目标 操作 数 中 的 数据 元 素 被 设置 为 全 1 ; 和 否则， 目标 操作 数 中 的 
数据 元 素 被 设置 为 全 0 






pcmpeqb 






pempeqw 








pempeqd 





pempgtb 


pempgtw MMX 
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5.4.4 转换 


MMX 的 转换 指令 可 以 用 来 对 操作 数 中 的 数据 元 素 进 合 操作 ， 它 们 使 得 整 型 数据 的 
转换 变 得 更 为 简单 。 表 5-5 介绍 了 MMX 的 转换 指令 。 


表 5-5 MMX 转换 指令 















或 双 字 





字 转 





使 用 有 符号 的 饱和 运算 ， 将 源 操 作 数 和 目标 操作 数 中 的 组 合 整 型 单字 
换 为 组 合 整 型 字 节 或 单字 
使 用 无 符号 的 他 和 运算 ， 将 源 操 作 数 和 目标 操作 数 中 的 组 合 整 型 单字 转换 为 组 
合 整 型 字 节 


packsswb 
packssdw 





packuswb MMX 






5.4.5 Bm 


MMX 的 逻辑 与 位 移 指令 可 以 用 来 对 操作 数 进行 按 位 逻辑 运算 ; 也 可 以 用 来 对 组 合 操作 
数 中 的 单个 数据 元 素 进 行 逻辑 和 算术 位 移 。 表 5-6 总 结 了 逻辑 和 位 移 指令 


表 5-6 MMX 逻辑 和 位 移 指 令 







对 指定 的 源 操 作 数 和 目标 操作 数 进行 按 位 的 迎 辑 与 操作 
对 指定 的 源 操作 数 和 反 转 的 目标 操作 数 进行 按 位 的 逻辑 与 操作 
对 指定 的 源 操作 数 和 目标 操作 数 进行 按 位 的 逻辑 或 操作 

对 指定 的 源 操作 数 和 目标 操作 数 进行 按 位 的 逻辑 异 或 操作 










an 对 目标 操作 数 中 的 每 个 数据 元 素 进 行 多 辑 左 移 操作 ， 低 位 用 0 补 进 。 源 操作 数 中 Ves 
ie 存放 着 需要 左 移 的 位 数 ， 可 以 是 内 存 地 址 、MMX 寄存 器 或 者 是 立即 操作 数 








对 目标 操作 数 中 的 每 个 数据 元 素 进行 逻辑 右 移 操作 ， 高 位 用 0 补 进 。 源 操作 数 中 
存放 着 需要 右 移 的 位 数 ， 可 以 是 内 存 地 址 、MMX 寄存 器 或 者 是 立即 操作 数 


对 目标 操作 数 中 的 每 个 数据 元 素 进行 算术 右 移 操作 ， 高 位 用 符号 位 补 进 。 源 操作 
数 中 存放 着 需要 右 移 的 位 数 ， 可 以 是 内 存 地 址 、MMX 寄存 器 或 者 是 立即 操作 数 
| 将 目标 操作 数 和 源 操作 数组 成 一 个 临时 数值 ， 然 后 按照 立即 操作 数 指定 的 计数 对 
Pangnr | 这 个 临时 数值 进行 按 字 节 右 移 操作 。 将 临时 数值 最 右边 的 四 字 存 人 目标 操作 数 













5.4.6 AMEH 


MMX 的 解 组 与 重 排 指令 包括 了 对 一 个 组 合 操作 数 中 的 数据 元 素 进 行 交 织 ( 解 组 ) 
令 ， 也 可 以 用 于 对 组 合 操作 数 中 的 数据 元 素 重新 排序 CEHE), 这 些 指 令 如 表 5-7 


表 5-7 MMX 解 组 和 重 排 指 令 










punpckhbw 






解 组 并 交织 源 操作 数 和 目标 操作 数 中 的 高 位 数据 元 素 。 这 些 
字 节 转换 字 、 字 转换 为 双 字 以 及 双 字 转换 为 四 字 






punpckhwd 






punpckhdq 










PnP PW | 解 组 并 交织 源 操作 数 和 目标 操作 数 中 的 低位 数据 元 素 。 这 些 指令 可 以 用 于 把 


字 节 转换 字 、 字 转换 为 双 字 以 及 双 字 转换 为 四 字 






punpcklwd MMX 







punpckldq 
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源 操 作 数 指定 一 个 控制 掩 码 ， 根 据 这 个 掩 码 对 目标 操作 数 中 的 字 节 进行 重 排 
操作 。 这 个 指令 用 于 对 组 合 操 作 数 的 字 节 进行 重新 排列 

立即 操作 数 指 定 一 个 掩 码 ， 根 据 这 个 掩 码 对 源 操 作 数 中 的 字 进 行 重 排 操 作 。 
这 个 指令 用 于 对 组 合 操 作 数 的 字 进 行 重新 排列 













5.4.7 ”插入 和 提取 


MMX 的 插入 和 提取 指令 可 用 于 在 MMX 寄存 器 中 插入 或 提取 单字 值 。 表 5-8 总 结 了 插 
入 和 提取 指令 。 


表 5-8 MMX 插入 和 提取 指令 













复制 通用 寄存 器 中 的 低位 单字 ， 将 其 插入 一 个 MMX 寄存 嚣 中。 插入 的 位 置 由 立 
即 操作 数 指定 
从 MMX 寄存 器 中 提取 一 个 单字 ， 将 其 复制 到 一 个 通用 寄存 器 的 低位 单字 中 。 提 
取 的 位 置 由 立即 操作 数 指定 





pinstrw 







5.4.8 状态 和 缓存 控制 


MMX 的 状态 和 缓存 控制 指令 用 于 通知 处 理 器 从 MMX 到 x87 FPU 的 状态 转换 ， 此 外 还 
包括 了 使 用 非 临 时 提示 执行 内 存 存 储 的 指令 。 非 临时 提示 会 通知 处 理 器 将 数据 直接 写 人 内 
存 ， 而 不 是 暂时 存 人 缓存 中 。 这 样 可 以 提高 音 视频 编码 程序 的 缓存 效率 ， 因 为 缓存 干扰 被 消 
除了 。 表 5-9 介绍 了 状态 和 缓存 控制 指令 。 


表 5-9 MMX 的 状态 和 缓存 控制 指令 







通过 重 置 x87 FPU 标签 字 来 清除 MMX 的 状态 信息 ， 用 以 标识 所 有 的 x87 
FPU 寄存 器 都 已 经 被 清空 。 这 个 指令 在 每 次 从 MMX 指令 到 x87 FPU 指令 的 转 
换 之 前 必须 执行 
使 用 非 临 时 提示 将 MMX 寄存 器 中 的 内 容 复制 到 内 存 中 
使 用 非 临 时 提示 有 条 件 地 将 MMX 寄存 器 中 的 某 些 字 节 复 制 到 内 存 中 ， 另 一 
个 MMX 寄存 器 中 存放 了 一 个 掩 码 值 ， 用 于 指定 哪些 字 节 需要 被 复制 。EDI f 
存 器 指向 目标 的 内 存 位 置 
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maskmovq SSE 
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本 章 讲 解 了 MMX 技术 的 基本 概念 ， 包 括 寄存 器 组 、 支 持 的 数据 类 型 以 及 指令 集 ; 我 们 
也 介绍 了 基本 的 SIMD 处 理 概念 以 及 回 绕 和 饱和 整 型 运算 。 至 于 软件 开发 者 如 何 利用 MMX 
技术 来 解决 现实 世界 中 的 编程 难题 ， 答 案 并 不 像 其 他 的 x86 计算 资源 (如 x87 FPU) 那么 明 
显 。 在 第 6 章 中 ， 我 们 将 通过 一 系列 的 示例 代码 来 演示 MMX 技术 的 优越 之 处 ， 并 介绍 如 何 
正确 使 用 MMX 指令 集 。 


| 第 6 章 


Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


MMX 技术 编程 





本 章 主 要 介绍 MMX 编程 的 方法 。 首 先 介 绍 MMX 编程 的 基本 要 领 ， 之 后 通过 几 个 示例 
程序 演示 一 些 高 级 的 MMX 编程 技巧 ， 用 以 对 整 型 数组 处 理 进行 加 速 。 在 阅读 本 章 讨 论 的 内 
容 和 示例 程序 前 ， 请 确保 对 本 书 第 5 章 的 内 容 已 经 比较 熟悉 。 

我 们 在 第 5 章 中 曾经 提 到 ，x86 SIMD 扩展 包括 x86-SSE 和 x86-AVX， 而 MMX 技术 是 
它们 的 基础 。 这 意味 着 ， 即 使 你 的 最 终 目标 只 是 使 用 一 种 新 扩展 来 开发 代码 ， 我 们 也 强烈 建 
议 你 认真 阅读 本 章 ， 以 对 MMX 编程 及 其 指令 集 建立 全 面 的 认识 。 此 外 ， 理 解 本 章 的 内 容 对 
维护 旧 的 MMX 代码 也 是 很 有 必要 的 。 


6.1 MMX 编程 基础 


让 我 们 先 分 析 几 个 演示 MMX 编程 基础 的 示例 程序 来 开始 探索 MMX 技术 。 第 一 个 例 
子 将 演示 如 何 对 不 同 长 度 的 整数 ( 字 节 和 字 ) 做 组 合 整 型 加 法 ; 第 二 个 例子 演示 对 组 合 操作 
数 执行 MMX 移 位 指令 ; 最 后 一 个 例子 展示 如 何 对 组 合 有 符号 整数 做 乘法 。 本 节 的 示例 程 
序 完全 是 为 了 教学 目的 ， 在 接 下 来 的 几 节 中 将 会 介绍 如 何 使 用 MMX 指令 集 实现 比较 完整 的 
算法 。 

在 阅读 示例 程序 前 ， 我 们 首先 浏览 一 些 数据 类 型 ， 它 们 是 为 了 简化 MMX 示例 程序 而 定 
义 的 。 头 文件 MiscDefs.h 中 包含 若干 C++ typedef 语句 ， 定 义 了 常见 的 有 符号 和 无 符号 整数 
类 型 。 清 单 6-1 给 出 了 这 些 类 型 的 定义 ， 本 章 和 接 下 来 章节 的 示例 程序 会 用 到 它 。 清 单 6-2 
中 的 头 文件 MmxVal.h 中 ， 声 明了 联合 体 (union) MmxVal， 主 要 用 来 在 C++ 和 汇编 语言 函 
数 之 间 交 换 数据 。MmxVal 联合 体 中 声明 的 项 与 MMX 支持 的 组 合 数据 类 型 是 对 应 的 。 联 合 
体 中 还 包含 若干 文本 字符 串 辅助 函数 的 声明 ， 主 要 用 来 格式 化 和 显示 Mmx Val 变量 的 内 容 。 
MmxVal.cpp 中 包含 ToString_ 转换 函数 的 定义 ， 其 内 容 在 这 里 没有 列 出 来 。 这 个 文件 包含 
在 本 书 配套 源 代码 的 发 布 文件 中 ， 位 于 子 目录 CommonFiles 下 。 


清单 6-1 MiscDefs.h 


#pragma once 


// 有 符号 整 型 类 型 定义 
typedef — int8 Int8; 
typedef — int16 Int16; 
typedef — int32 Int32; 

typedef _ int64 Int64; 

// 无 符号 整 型 类 型 定义 

typedef unsigned ^ int8 Uint8; 
typedef unsigned ^ int16 Uint16; 
typedef unsigned — int32 Uint32; 
typedef unsigned — int64 Uint64; 
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清单 6-2 MmxVal.h 





#pragma once 
#include "MiscDefs.h" 


union MmxVal 

( 
Int8 i8[8]; 
Int16 i16[4]; 
Int32 i32[2]; 
Int64 i64; 
Uint8 u8[8]; 
Uint16 u16[4]; 
Uint32 u32[2]; 
Uint64 u64; 


char* ToString i8(char* s, size t len); 
char* ToString ii6(char* s, size t len); 
char* ToString i32(char* s, size t len); 
char* ToString i64(char* s, size t len); 


char* ToString u8(char* s, size t len); 
char* ToString ui6(char* s, size t len); 
char* ToString u32(char* s, size t len); 
char* ToString u64(char* s, size t len); 


char* ToString x8(char* s, size t len); 

char* ToString x16(char* s, size t len); 
char* ToString x32(char* s, size t len); 
char* ToString x64(char* s, size t len); 


J} 


6.1.1 组 合 整 型 加 法 


第 一 个 示例 程序 为 MmxAddition， 演 示 了 针对 组 合 有 符号 和 无 符号 整数 的 SIMD 加 
法 。 示 例 中 也 演示 了 如 何 使 用 回 绕 和 饱和 运算 执行 组 合 整 型 加 法 。 除 了 演示 组 合 整 型 加 法 ， 
MmxAddition 也 演示 了 一 些 C++ 和 汇编 语言 编程 的 通用 技巧 ， 包 括 联 合体 和 跳 转 表 。 示 例 
程序 的 源 代码 文件 MmxAddition.cpp 和 MmxAddition_.asm 分 别 如 清单 6-3 和 清单 6-4 所 示 。 


清单 6-3 MmxAddition.cpp 





#include "stdafx.h" 
#include "MmxVal.h" 


// 下 面 枚 举 类 型 中 的 枚 举 成 员 顺 序 必须 与 MmxAddition .asm 中 定义 的 一 致 
enum MmxAddOp : unsigned int 


{ 
paddb, // 回 绕 方式 组 合 字 节 加 法 
paddsb， // 有 符号 饱和 方式 组 合 字 节 加 法 
paddusb, // 无 符号 饱和 方式 组 合 字 节 加 法 
paddw, // 回 绕 方 式 组 合 字 加 法 
paddsw, // 有 符号 饱和 方式 组 合 字 加 法 
paddusw, // 无 符号 饱和 方式 组 合 字 加 法 
paddd // 回 绕 方式 组 合 双 字 加 法 


extern "C" MmxVal MmxAdd (MmxVal a, MmxVal b, MmxAddOp op); 


void MmxAddBytes (void) 


MMX KRAE 


} 
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MmxVal a, b, c; 
char buff [256]; 


// 组 合 字 节 加 法 一 一 有 符号 整 型 
a.i8[0] = 50;  b.i8[0] = 30; 


a.i8[1] = 80;  b.i8[1] = 64; 
a.i8[2] = -27; b.i8[2] = -32; 
a.i8[3] = -70; b.i8[3] = -80; 
a.i8[4] = -42; b.i8[4] = 90; 
a.i8[5] = 60;  b.i8[5] = -85; 
a.i8[6] = 64;  b.i8[6] = 90; 
a.i8[7] = 100; b.i8[7] = -30; 


printf("\n\nPacked byte addition - signed integers n"); 
printf("a: %s\n", a.ToString i8(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString i8(buff, sizeof(buff))); 


c = MmxAdd (a, b, MmxAddOp: :paddb); 
printf("Anpaddb results |n"); 
printf("c: %s\n", c.ToString i8(buff, sizeof(buff))); 


c = MmxAdd (a, b, MmxAddOp: :paddsb) ; 
printf("\npaddsb results in"); 
printf("c: %s\n", c.ToString i8(buff, sizeof(buff))); 


// 组 合 字 节 加 法 一 一 无 符号 整 型 
a.u8[0] = 50; b.u8[0] = 30; 
a.u8[1] = 80; b.u8[1] = 64; 
a.u8[2] = 132; b.u8[2] = 130; 
a.u8[3] = 200; b.u8[3] = 180; 


a.u8[4] = 42; b.u8[4] = 90; 
a.u8[5] = 60; b.u8[5] = 85; 
a.u8[6] = 140; b.u8[6] = 160; 
a.u8[7] = 10; b.u8[7] = 14; 


printf("\n\nPacked byte addition - unsigned integers n"); 


printf("a: %s\n", a.ToString u8(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString u8(buff, sizeof(buff))); 


c = MmxAdd (a, b, MmxAddOp: :paddb) ; 
printf("\npaddb results Wn"); 
printf("c: %s\n", c.ToString u8(buff, sizeof(buff))); 


c = MmxAdd (a, b, MmxAddOp: :paddusb) ; 
printf("\npaddusb results in"); 
printf("c: %s\n", c.ToString u8(buff, sizeof(buff))); 


void MmxAddWords (void) 


{ 


MmxVal a, b, c; 
char buff [256]; 


// 组 合 字 加 法 一 一 有 符号 整 型 


a.i16[0] = 550; b.i16[0] = 830; 
a.i16[1] = 30000;  b.i16[1] -5000; 
a.i16[2] = -270; b.i16[2] = -320; 


a.i16[3] = -7000;  b.i16[3] = -32000; 
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int 


, 
J 
> 
> 
3 


printf("\n\nPacked word addition - signed integers\n"); 
printf("a: %s\n", a.ToString_i16(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString_i16(buff, sizeof(buff))); 


c = MmxAdd (a, b, MmxAddOp: : paddw); 
printf("\npaddw results\n"); 
printf("c: %s\n", c.ToString i16(buff, sizeof(buff))); 


c = MnxAdd (a, b, MmxAddOp: :paddsw) ; 
printf("\npaddsw results in"); 
printf("c: %s\n", c.ToString i16(buff, sizeof(buff))); 


// 组 合 字 加 法 一 一 无 符号 整 型 
a.u16[0] = 50; b.u16[0] 
a.u16[1] = 48000; b.u16[1] = 20000; 
a.u16[2] = 132; b.u16[2] = 130; 

a.u16[3] = 10000; b.u16[3] = 60000; 


30; 


printf("\n\nPacked word addition - unsigned integers n"); 
printf("a: %s\n", a.ToString ui6(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString u16(buff, sizeof(buff))); 


c = MmxAdd (a, b, MmxAddOp: : paddw); 
printf("\npaddw results in"); 
printf("c: %s\n", c.ToString ui6(buff, sizeof(buff))); 


c = MnxAdd (a, b, MmxAddOp: :paddusw) ; 
printf("\npaddusw results Wn"); 
printf("c: %s\n", c.ToString u16(buff, sizeof(buff))); 


_tmain(int argc, TCHAR* argv[]) 


MmxAddBytes() ; 
MmxAddWords(); 
return 0; 


清单 6-4 MmxAddition .asm 


.model flat,c 
.code 


extern "C" MmxVal MmxAdd (MmxVal a, MmxVal b, MmxAddOp add op); 


返 


; 描述 ;本 函数 演示 指令 padd* 的 使 用 





回 : 寄存 器 对 edx:eax 包含 计算 结果 


MmxAdd_ proc 


push ebp 
mov ebp,esp 


; 确保 'add op' 是 有 效 的 





mov eax, [ebp+24] SHR 'add_op' 

cmp eax,AddOpTableCount ;与 表格 长 度 比较 

jae BadAddOp ;如 果 'add op' 无 效 ， 则 跳 转 
;加载 参 数 并 且 执 行 指定 的 指令 

movq mmo, [ebp+8] ;加 载 "a' 

movq mm1, [ebp+16] ;加载 'b， 


jmp [AddOpTable«eax*4] ; 跳 转 到 指定 的 'add op' 
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MmxPaddb: ^ paddb mmo,mmi ; 回 绕 方式 组 合 字 节 加 法 
jmp SaveResult 

MmxPaddsb: paddsb mmo,mmi ;有 符号 饱和 方式 的 组 合 字 节 加 法 
jmp SaveResult 

MmxPaddusb: paddusb mmo,mmi ;无 符号 饱和 方式 的 组 合 字 节 加 法 
jmp SaveResult 

MmxPaddw: paddw mmO,mmi 3 [15:75 XX 48 E DA 

i jmp SaveResult 

MmxPaddsw: paddsw mmo,mm1 ;有 符号 饱和 方式 的 组 合 字 加 法 
jmp SaveResult 

MmxPaddusw: paddusw mmo,mmi ;无 符号 饱和 方式 的 组 合 字 加 法 
jmp SaveResult 

MmxPaddd: paddd mmo,mmi ; 回 绕 方 式 组 合 双 字 加 法 
jmp SaveResult 

BadAddOp: pxor mmO,mmo ;如 果 'add_op' 无 效 ， 返 回 0 

; 最 终结 果 存 入 edx:eax 

SaveResult: movd eax,mmo ;eax = mm0 的 低位 双 字 部 分 
pshufw mm2,mmO,01001110b ;交换 高 位 双 字 部 分 和 低位 双 字 部 分 
movd edx,mm2 ;edx:eax = 最终 结果 
emms ;清除 MMX 状态 
pop ebp 
ret 


; 下 面 表格 中 标号 的 顺序 必须 与 MmxAddition.cpp 中 定义 的 枚 举 类 型 一 致 


align 4 
AddOpTable: 

dword MmxPaddb, MmxPaddsb, MmxPaddusb 

dword MmxPaddw, MmxPaddsw, MmxPaddusw, MmxPaddd 
AddOpTableCount equ ($ - AddOpTable) / size dword 


MmxAdd_ endp 
end 


MmxAddition.cpp( 见 清单 6-3 ) 的 顶部 定义 了 一 个 C++ 枚 举 变量 MmxAddOp, TEX 
一 系列 的 枚 举 成 员 来 表示 各 种 组 合 加 法 的 类 型 。 本 例 中 ，C++ 编译 器 为 枚 举 成 员 赋 以 从 0 FF 
始 的 连续 无 符号 整 型 值 。 这 些 枚 举 成 员 的 顺序 非常 重要 ， 并 且 必 须 与 定义 在 MmxAddition . 
asm ( 见 清单 6-4) 中 的 跳 转 表 一 致 。 在 本 节 后 面 ， 可 以 更 深入 地 了 解 此 跳 转 表 。 在 
MmxAddOp 的 定义 之 后 ， 声 明了 汇编 语言 晴 数 MmxAdd . MmxVal 型 参数 a 和 b 表示 要 相 
加 的 两 个 组 合 操作 数 ，MmxAddop 型 参数 add_op 指定 组 合 加 法 的 类 型 ， 计 算 后 的 组 合 数 之 
和 将 以 MmxVal 类 型 返回 。 

源 代码 文件 MmxAddition.cpp 包含 两 个 主要 函数 : MmxAddBytes 和 MmxAddWords. 
这 些 了 清 数 演示 如 何 对 组 合 字 节 和 组 合 字 操作 数 进行 MMX 加 法 。 函 数 MmxAddBytes T$ 
先 使 用 8 位 有 符号 整 型 数 初始 化 两 个 MmxVal 型 变量 ， 接 着 调用 两 次 x86 汇编 语言 函数 
MmxAdd ,使 用 回 绕 运算 和 饱和 运算 执行 组 合 整 型 加 法 。 调 用 MmxAdd 之后， 执行 结果 
会 显示 在 屏幕 上 。 然 后 使 用 类 似 的 一 系列 C++ 代码 对 8 位 无 符号 整 型 数 执行 组 合 加 法 。C++ 
PR MmxAddWords 把 这 种 模式 应 用 到 16 位 有 符号 和 无 符号 整 型 数 。 


-" ——————————— 0 


现在 ， 让 我 们 来 看 看 汇编 语言 文件 MmxAddition asm ( 见 清 单 6-4 )。 文 件 底部 可 以 看 到 之 
前 提 过 的 跳 转 表 AddOpTable， 它 包含 一 系列 的 汇编 语言 标志 ， 这 些 标志 定义 在 函数 MmxAdd_ 
中 。 每 个 标志 之 后 会 执行 不 同 的 MMX 加 法 指令 ， 跳 转 表 的 使 用 机 制 之 后 会 进行 描述 。 符 
号 AddOpTableCount 定义 了 跳 转 表 的 表 项 数目 ， 用 来 验证 函数 参数 add op 的 有 效 性 。 语 句 
align 4 指示 汇编 编译 器 将 表 AddOpTable 进行 双 字 对 齐 ， 以 防止 未 对 齐 的 内 存 访问 。 另 外 ， 
要 注意 跳 转 表 定 义 在 proc 和 endp 语句 之 间 。 也 就 是 说 ， 为 此 表格 分 配 的 内 存在 代码 段 中 。 
很 明显 ， 跳 转 表 中 没有 包含 执行 指令 ， 这 可 以 解释 为 什么 它 放 在 ret 指令 之 后 。 同 时 也 暗示 
跳 转 表 是 只 读 的 ， 对 于 任何 试图 对 表格 进行 写 入 的 操作 ， 处 理 器 将 会 产生 一 个 异常 。 

在 其 函数 序言 之 后 ， 函 数 MmxAdd Jf add op 的 值 加 载 到 寄存 器 EAX 中 。 指 令 mov 
eax, [ebp+24] 用 来 加 载 add_op, +24 是 因为 MmxVal 类 型 的 参数 a Fil b 按 值 传 递 ， 每 个 参数 
需要 8 字 节 的 栈 空间 。 指 令 cmp 以 及 其 后 的 jae 条 件 跳 转 指 令 用 来 验证 add op 值 的 有 效 性 。 

验证 了 add_ op 的 有 效 性 之 后 ,函数 MmxAdd_ 使 用 指令 movq mm0, [ebp+8] (四 字 长 数 
据 移 动 ) 将 参数 a 加 载 到 寄存 器 MM0。 第 二 条 mova 指令 加 载 参数 b 到 MM1。 接 下 来 的 指 
今 jmp [AddOpTableteax*4] 直接 跳 转 到 指定 的 MMX 加 法 指令 处 。 在 执行 这 条 指令 时 ， 处 
理 器 把 指令 操作 数 所 指定 内 存 位 置 的 内 容 加 载 至 寄存 器 EIP。 当 前 的 示例 程序 中 ， 处 理 器 从 
内 存 位 置 [AddOpTableteax*4] (注意 寄存 器 EAX 中 存 有 add_op) 中 读 取 新 的 EIP 值 。 因 为 
所 有 在 AddOpTable 中 的 标记 值 都 对 应 一 条 padd 指令 ， 所 以 跳 转 动作 后 处 理 器 将 执行 一 条 
MMX 加 法 指令 。 

每 条 MMX 加 法 指令 会 根据 字 长 要 求 和 运算 方式 ( 回 绕 运算 或 者 饱和 运算 ) 来 计算 MMO 
和 MMI 的 和 。 在 每 个 MMX 加 法 之 后 ， 会 无 条 件 跳 转 到 一 段 保存 计算 结果 的 公用 代码 。 注 
意 ， 如 果 add op 值 无 效 ， 会 执行 pxor mm0, mm0 指令 (逻辑 异 或 )， 并 将 寄存 器 MMO 清 为 
全 0s 

在 标号 SaveResult 之 后 ， 计 算 好 的 组 合 和 被 保存 起 来 。 注 意 看 保存 时 使 用 的 指令 。 
Visual C++ 调用 约定 中 ,使 用 寄存 器 对 EDX:EAX 作为 64 位 的 返回 值 ， 就 是 说 ，MM0 的 内 
容 必须 拷贝 到 这 两 个 寄存 器 中 。 指 令 movd eax, mm0 ( 双 字 数据 移动 ) 将 MMO 的 低 双 字 部 
分 拷贝 到 EAX 中 。 有 些 奇怪 的 是 ， 没 有 相应 的 MMX 指令 把 MMX 寄存 器 的 高 双 字 部 分 拷 
贝 到 通用 寄存 器 中 。 为 了 绕 过 这 个 限制 ， 指 令 pshufw mm2, mm0, 01001110b ( 重 排 组 合 字 ) 
用 来 将 MMO 的 高 双 字 和 低 双 字 部 分 的 数据 进行 交换 。 这 条 指令 使 用 8 位 立即 操作 数 来 指定 
FEH (也 就 是 排序 ) 模式 。 要 从 右 往 左 读 这 个 模式 ， 每 两 位 二 进 制 对 应 一 个 字 在 目标 操作 
数 中 的 位 置 (如 位 0 ~ 1= 字 0, 位 2 ~ 3= 字 1， SAF). 立即 数 中 每 两 位 二 进 制 的 值 表示 
将 哪 部 分 源 操 作 数 字 拷 贝 到 指定 的 目标 操作 数字 ， 如 图 6-1 所 示 。 在 这 些 指令 执行 完 后 ， 指 
令 movd edx, mm2 把 正确 的 返回 值 存 人 寄存 器 EDX. 

滑 数 结束 前 调用 了 指令 emms (清空 MMX 技术 状态 )。 如 之 前 在 第 5 章 中 讨论 的 ， 在 执 
行 完 任 何 MMX 指令 后 ， 必 须 调用 emms 指令 来 恢复 x87 FPU 的 正常 浮 点 运算 。 如 果 在 执行 
完 MMX 指令 后 没有 使 用 emms， 直 接 执行 x87 FPU 指令 ，x87 FPU 可 能 会 产生 异常 或 者 得 
到 一 个 无 效 结果 。 


€ 实际 上 使 用 了 8 位 立即 数 来 对 应 操作 数 。 操 作 数 是 四 字 长 ， 分 为 四 个 部 分 ， 从 右 往 左 数 为 字 0、 字 1、 字 


2、 宁 3。 重 排 的 时 候 ， 从 源 操作 数据 贝 数据 到 目标 操作 数 ， 立 即 数 规定 了 从 源 操作 数 的 哪 部 分 拷贝 数 
Ju. 一 一 详 者 注 


MMX 其 大 编程 107 





pshufw des,src.ord 


| ord[7:6] | ord[5:4] | ord[3:2] | ord[1:0] ord 
| sre[3] aE sre[2] sre[1] are 
src[ord[7:6]] src[ord[5:4]] src[ord[3:2]] src[ord[1:0]] des 


ord[x:y] = 指令 操作 数 的 x ~ y 位 
图 6-1 pshufw 指令 的 操作 过 程 

















输出 6-1 显示 了 示例 程序 MmxAddition 的 执行 结果 。 这 些 测试 用 例 演示 了 分 别 使 用 回 
绕 方 式 加 法 和 饱和 方式 加 法 进行 有 符号 和 无 符号 整 型 数 运算 的 各 种 组 合 。 第 一 个 测试 案例 
中 ， 是 字 节 整 型 相 加 。 需 要 注意 两 种 方式 的 差别 ， 以 80 和 64 相 加 为 例 ， 使 用 回 绕 方式 加 法 
(paddb results )， 得 到 的 结果 是 -112 (th T); 使 用 饱和 方式 加 法 (paddsb results )， 得 到 的 
结果 为 127。 在 字 节 整数 范围 的 另 一 端 ， 将 -70 和 -80 相 加 ， 采 用 回 绕 方 式 相 加 则 得 到 106 
( 另 一 端 溢出 ) ; 饱和 方式 相 加 则 得 到 -128。 输 出 6-1 也 说 明了 使 用 无 符号 字 节 整数 、 有 符号 
字 整 数 和 无 符号 字 整 数 在 回 绕 方式 加 法 和 饱和 方式 加 法 之 间 的 差异 。 


输出 6-1 示例 程序 MmxAddition 
Packed byte addition - signed integers 
a: 50 80 -27 -70 -42 60 64 100 
b: 30 64 -32 -80 90 -85 90 -30 





paddb results 
e 80 -112 -59 106 48 -25 -102 70 


paddsb results 
6: 80 127 -59 -128 48 -25 127 70 


Packed byte addition - unsigned integers 
a: 50 80 132 200 42 60 140 10 
b: 30 64 130 180 90 85 160 14 


paddb results 
Ct 80 144 6 124 132 145 44 24 


paddusb results 
c: 80 144 255 255 132 145 255 24 


Packed word addition - signed integers 
a: 550 30000 -270 -7000 
b: 830 5000 -320 -32000 


paddw results 


ct 1380 -30536 -590 26536 
paddsw results 

(or: 1380 32767 -590 -32768 
Packed word addition - unsigned integers 
a: 50 48000 132 10000 
b: 30 20000 130 60000 


paddw results 
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[ar 80 2464 262 4464 


paddusw results 
et 80 65535 262 65535 


6.1.2 组 合 整 型 移 位 


B 


下 一 个 示例 程序 是 MmxShift， 它 演示 了 MMX 移 位 指令 的 使 用 。 源 文件 MmxShift. 
cpp 和 MmxShift .asm 分 别 列 于 清单 6-5 和 清单 6-6 Ho MmxShift AY j£ 48 2] 21; 


MmxAddition 非常 类 似 ， 所 以 对 其 的 注释 也 比较 简单 。 


清单 6-5 MmxShift.cpp 





#include "stdafx.h" 
#include "MmxVal.h" 


// 下 面 枚 举 类 型 中 的 枚 举 成 员 顺 序 必须 与 MmxShift_.asm 中 定义 的 一 臻 


enum MmxShiftOp : unsigned int 


( 
psllw, // 字 类 型 逻辑 左 移 
psrlw, // 字 类 型 逻辑 右 移 
psraw, // 字 类 型 算术 右 移 
pslld, // 双 字 类 型 逻辑 左 移 
psrld, // 双 字 类 型 逻辑 右 移 
psrad, // 双 字 类 型 算术 右 移 

h 

extern "C" bool MmxShift (MmxVal a, MmxShiftOp shift op, int count, MmxVal*e 

b); 

void MmxShiftWords (void) 

{ 


MmxVal a, b; 
int count; 
char buff[256]; 


a.u16[0] = 0x1234; 
a.u16[1] = oxFFoo; 
a.u16[2] = Ox00CC; 
a.u16[3] = 0x8080; 
count - 2; 


MmxShift (a, MmxShiftOp::psllw, count, &b); 
printf("\nResults for psllw - count = %d\n", count); 
printf("a: %s\n", a.ToString xi6(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString xi6(buff, sizeof(buff))); 


MmxShift (a, MmxShiftOp::psrlw, count, &b); 
printf("\nResults for psrlw - count = %d\n", count); 
printf("a: %s\n", a.ToString x16(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString x16(buff, sizeof(buff))); 


MmxShift (a, MmxShiftOp::psraw, count, 8b); 
printf("\nResults for psraw - count = %d\n", count); 
printf("a: %s\n", a.ToString x16(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString xi6(buff, sizeof(buff))); 


程序 
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void MmxShiftDwords (void) 


{ 


int 


MmxVal a, b; 
int count; 
char buff[256]; 


a.u32[0] = 0x00010001; 
a.u32[1] = 0x80008000; 
count = 3; 


MmxShift (a, MmxShiftOp::pslld, count, &b); 
printf("\nResults for pslld - count = %d\n", count); 
printf("a: %s\n", a.ToString x32(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString x32(buff, sizeof(buff))); 


MmxShift (a, MmxShiftOp::psrld, count, &b); 
printf("\nResults for psrld - count = %d\n", count); 
printf("a: %s\n", a.ToString x32(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString x32(buff, sizeof(buff))); 


MmxShift (a, MmxShiftOp::psrad, count, &b); 
printf("\nResults for psrad - count = %d\n", count); 
printf("a: %s\n", a.ToString x32(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString x32(buff, sizeof(buff))); 


_tmain(int argc, TCHAR* argv[]) 
MmxShi ftWords(); 


MmxShiftDwords(); 
return 0; 


清单 6-6 MmxShift .asm 





.model flat,c 
.code 


; extern "C" bool MmxShift (MmxVal a, MmxShiftOp shift op, int count, = 
MmxVal* b); 


; 描述 。 本 函数 演示 了 各 类 MMX 移 位 指令 的 使 用 


; 返回 : 0 = 无效 的 "shift_op' 参数 


3 


1 = 成 功 


MmxShift ^ proc 


push ebp 
mov ebp,esp 


; 确保 参数 'shift_op' 的 有 效 性 


XOr eax,eax ;设置 错误 返回 码 

mov edx, [ebp+16] ;加 载 'shift op' 

cmp edx,ShiftOpTableCount ;与 表 项 数目 比较 

jae BadShiftOp SWR 'shift op' 无 效 ， 则 跳 转 
; Jump to the specfied shift operation 

mov eax,1 ;设置 成 功 返回 码 

movq mmo, [ebp+8] ;加 载 'a' 


movd mm1, dword ptr [ebp+20] ;加 载 'count' 到 低 双 字 部 分 
jmp [ShiftOpTable+edx*4] 


110 Fe OF 














MmxPsllw: psllw mmo,mmi ; 字 类 型 逻辑 左 移 
jmp SaveResult 

MmxPsrlw: — psrlw mmo,mmi ; 字 类 型 逻辑 右 移 
jmp SaveResult 

MmxPsraw: psraw mmO,mmi ; 字 类 型 算术 右 移 
jmp SaveResult 

MmxPslld: ~ pslld mmo,mmi ; 双 字 类 型 逻辑 左 移 

158 jmp SaveResult 

MmxPsrld: ~ psrld mmo,mmi ; 双 字 类 型 逻辑 右 移 
jmp SaveResult 

MmxPsrad:  psrad mmo,mmi ; 双 字 类 型 算术 右 移 
jmp SaveResult 

BadShiftOp: pxor mmO,mmo 如果 'shift op' 无 效 ， 清 零 

SaveResult: mov edx, [ebp+24] ;edx 指向 'b' 
movq [edx],mmo ;保存 移 位 结果 
emms ;清除 MMX 状态 
pop ebp 
ret 


; 下 面 表格 中 标号 的 顺序 必须 与 MmxShift.cpp 中 定义 的 枚 举 类 型 一 臻 


align 4 
ShiftOpTable: 

dword MmxPsllw, MmxPsrlw, MmxPsraw 

dword MmxPslld, MmxPsrld, MmxPsrad 
ShiftOpTableCount equ ($ - ShiftOpTable) / size dword 


MmxShift  endp 
end 


在 源 文 件 MmxShift.epp ( 见 清单 6-5 ) 的 顶部 ， 定 义 了 C++ 枚 举 变量 ShiftOop， 它 的 各 
个 成 员 用 来 对 应 各 类 MMX 移 位 操作 。 接 着 声明 了 x86 IL hii ci PAX MmxShift ， 其 函数 原 
型 与 MmxAdd_ 稍 有 不 同 ，MmxShift_ 把 其 结果 存储 在 调用 者 提供 的 内 存 位 置 ， 而 不 是 返回 
Mmx Val 类 型 数值 。 

在 其 序言 之 后 ， 汇 编 语言 函数 MmxShift ( 见 清单 6-6) 验证 参数 shift op 的 有 效 
性 。 接 着 用 指令 movq mm0, [ebp+8] 把 a 加 载 到 MMX 寄存 器 MM0， 用 指令 movd mml, 
dword ptr [ebp+20] 把 移 位 计数 值 加 载 到 MMI1 的 低 双 字 部 分 。 移 位 计数 值 用 来 指定 a 中 
的 字 或 双 字 移 动 的 位 数 (MMX 移 位 指令 中 ， 移 位 数目 可 以 由 立即 数 来 指定 )。 指 令 jmp 
[ShiftOpTable+edx*4] 将 程序 控制 转移 到 指定 的 MMX 移 位 指令 。 完 成 移 位 操作 后 ， 结 果 保 
存 到 调用 者 指定 的 内 存 人 位置。 注意， 在 本 例 中 没有 必要 使 用 pshufw 指令 来 交换 结果 中 的 高 
低 双 字 部 分 ， 因 为 可 以 用 movq 指令 把 整个 64 位 值 直接 存 人 内 存 。 输 出 6-2 显示 了 示例 程 

序 MmxShift 的 执行 结果 。 


输出 6-2 示例 程序 MmxShift 





Results for psllw - count = 2 
a: 1234 FF00 00CC 8080 
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b: 48D0 FCOO 0330 0200 


"n 
N 


Results for psrlw - count 
a: 1234 FF00 00CC 8080 
b: 048D 3FCO 0033 2020 


" 
N 


Results for psraw - count 
a: 1234 FF00 00CC 8080 
b: 048D FFCO 0033 E020 


外 
w 


Results for pslld - count 
a: 00010001 80008000 
b: 00080008 00040000 


Results for psrld - count = 3 
a: 00010001 80008000 
b: 00002000 10001000 


Results for psrad - count 
a: 00010001 80008000 
b: 00002000 F0001000 


n 
uU 


6.1.3 组 合 整 型 乘法 


本 节 的 最 后 一 个 示例 程序 是 MmxMnultiplication， 演 示 如 何 使 用 组 合 字 型 操作 数 执行 
符号 整 型 乘法 。 源 文件 MmxMultiplication.cpp 和 MmxMultiplication .asm 分 别 列 于 清单 6-7 
和 清单 6-8 之 中 。 两 个 字 型 整 型 数 ( 16 位 ) 相 乘 ， 总 是 会 生成 双 字 型 整 型 数 (32 位 )， 记 住 
这 一 点 对 理解 后 面 的 程序 很 有 帮助 。 


清单 6-7 MmxMultiplication.cpp 


#include "stdafx.h" 
#include "MmxVal.h" 


extern "C" void MmxMulSignedWord (MmxVal a, MmxVal b, MmxVal* prod lo,~ 
MmxVal* prod hi); 


int tmain(int argc, _TCHAR* argv[]) 


{ 
MmxVal a, b, prod_lo, prod_hi; 
char buff[256]; 
a.i16[0] = 10; b.i16[0] = 2000; 
a.i16[1] = 30; b.i16[1] = -4000; 
a.i16[2] = -50; b.i16[2] = 6000; 


a.i16[3] = -70; b.i16[3] = -8000; 
MmxMulSignedWord (a, b, &prod lo, &prod hi); 


printf("\nResults for MmxMulSignedWord ^n"); 

printf("a: %s\n", a.ToString i16(buff, sizeof(buff))); 

printf("b: %s\n\n", b.ToString i16(buff, sizeof(buff))); 
printf("prod lo: %s\n", prod lo.ToString i32(buff, sizeof(buff))); 
printf("prod hi: %s\n", prod hi.ToString i32(buff, sizeof(buff))); 


return 0; 


Bo 
^ 
Ry 


112 





清单 6-8 MmxMultiplication_.asm 


.model flat,c 
.Code 


; extern "C" void MmxMulSignedWord (MmxVal a, MmxVal b, MmxVal* prod 1o, 一 
MmxVal* prod hi) 


; 描述 : 本 函数 演示 两 个 组 合 有 符号 字 型 操作 数 的 SIM 乘法 ， 得 到 的 双 字 型 积存 入 指定 的 内 存 位 置 
MmxMulSignedWord proc 
push ebp 


mov ebp,esp 


;加载 参数 at 和 'b' 


movq mmo, [ebp+8] ;mmo - 'a' 
movq mmi, [ebp+16] ;mm1 = 'b' 
; 对 组 合 有 符号 整 型 字 作 乘 法 
movq mm2,mmo ;mm2 - 'a' 
pmullw mmo,mmi ;mm0 = 乘积 的 低位 部 分 
pmulhw mm1,mm2 ;mml = 乘积 的 高 位 部 分 
> 解 组 并 将 乘积 的 高 位 低位 交错 ， 形 成 最 终 的 组 合 双 字 乘 积 
movq mm2,mmO ;mm2 = product low result 
punpcklwd mmO,mm1 ;mm0 = low dword products 
punpckhwd mm2,mm1 ;mm2 - high dword products 
; 保存 组 合 双 字 结果 
mov eax, [ebp+24] ;eax = 指向 'prod_lo' 
mov edx, [ebp+28] ;edx = 指向 'prod hi' 
movq [eax],mmo ;保存 结果 的 低 双 字 部 分 
movq [edx] ,mm2 ;保存 结果 的 高 双 字 部 分 
pop ebp 
ret 
MmxMulSignedWord endp 
end 


我 们 开始 分 析 汇 编 语言 函数 MmxMulSignedWord ( 见 清单 6-8 )。 此 函数 将 两 个 组 合 有 
符号 字 操 作 数 相 乘 ， 并 将 乘积 的 组 合 双 字 型 结果 存 人 内 存 。 在 其 函数 序言 之 后 ，MmxVal 类 
型 的 参数 a 和 b 分 别 被 加 载 到 寄存 器 MMO 和 MMI 中 。 指 令 pmullw mm0, mm1 (组 合 整 型 
乘法 ， 同 时 保存 低位 部 分 结果 ) 将 两 个 组 合 有 符号 整 型 字 相 乘 ， 把 乘积 的 低 16 位 部 分 存 人 
寄存 器 MM0。 类 似 的 ， 指 令 pmulhw mml, mm2 (组 合 整 型 乘法 ， 同 时 保存 高 位 部 分 结果 ) 
进行 乘法 运算 并 把 乘积 的 高 16 位 部 分 存 人 寄存 器 MMI (注意 ， 在 执行 指令 pmullw 之 前 ， 
MM0 已 经 拷贝 到 MM2 了 )。 图 6-2 展示 了 pmullw 和 pmulhw 指令 的 执行 过 程 。 

在 进行 了 上 述 计算 之 后 ， 高 位 结果 和 低位 结果 必须 重新 组 织 ， 以 形成 最 终 的 组 合 有 符号 
双 字 型 结果 。 这 个 任务 由 指令 punpcklwd ( 解 组 低位 数据 ， 字 型 转 为 双 字 型 ) 和 punpckhwd 
( 解 组 高 位 数据 ， 字 型 转 为 双 字 型 ) 指令 完成 。 这 些 指令 对 组 合 字 型 值 进行 解 组 和 交错 ， 如 
图 6-3 所 示 。MMX 指令 集中 也 有 类 似 的 指令 ， 对 组 合 字 节 型 值 和 组 合 双 字 型 值 进行 解 组 和 
交错 操作 ， 读 者 可 以 在 本 章 稍 后 部 分 见 到 组 合 字 节 的 例子 。 

PK%  MmxMulSignedWord 的 最 后 几 条 指令 把 MMO 和 MM2 中 的 组 合 双 字 型 值 存 人 调 
用 者 指定 的 内 存 位 置 。 源 文件 MmxMultiplication.cpp ( 见 清单 6-7 ) 中 包含 一 些 用 来 测试 例 
子 的 简单 代码 MmxMulSignedWord_ 并 打印 出 执行 结果 。 注 意 在 显示 文本 字符 串 的 时 候 ， 对 
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prod lo 和 prod hi 的 格式 化 输出 使 用 了 成 员 函 数 MmxVal::ToString i32， 这 是 因为 这 两 个 示 
例 都 包含 两 个 双 字 型 。 输 出 6-3 显示 了 示例 程序 MmxMultiplication 的 执行 结果 。 


pmullw des,src 








a3 a2 al a0 src 
| b3 | b2 | bl | b0 a des 


[ lol6(a3 * b3) | 1016(a2 * b2) loló(al * bl) | lol6(a0 * b0) des 

















pmulhw des,src 


Eee a ed = 
se as 
| hil6(a3 *b3) | hil6(a2 * b2) hil6lal* bl) | hi16(a0 * b0) | des 


lol6( ) = 32 位 乘积 的 低 16 位 部 分 ; hil16( ) = 32 位 乘积 的 高 16 位 部 分 
图 6-2 pmullw 和 pmulhw 指令 的 执行 过 程 























punpcklwd des,src 

















a3 a2 al a0 src 
al bl a0 b0 des 
punpckhwd des,src 





a3 | a2 al a0 sre 
s [s od 


a3 b3 a2 b2 des 














图 6-3 punpcklwd 和 punpckhwd 指令 的 执行 过 程 


输出 6-3 示例 程序 MmxMultiplication 
Results for MmxMulSignedWord 


a: 10 30 -50 -70 
b: 2000 -4000 6000 -8000 
prod lo: 20000 -120000 
prod hi: -300000 560000 


6.2 MMX 高 级 编程 


前 一 节 的 示例 程序 旨 在 对 MMX 编程 做 一 个 入 门 型 的 介绍 。 每 个 程序 都 包含 一 个 简单 
的 x86 汇编 语言 函数 ， 这 些 函 数 对 联合 体 MmxVal 类 型 的 实例 执行 各 种 MMX 指令 。 对 现实 
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世界 的 某 些 应 用 程序 来 讲 ， 创 建 类 似 于 我 们 前 面 所 看 到 的 函数 或 许 是 可 接受 的 。 然 而 ， 为 了 
充分 利用 x86 的 SIMD 架构 带 来 的 好 处 ,我 们 需要 编写 包含 完整 算法 的 函数 。 这 正 是 本 节 的 
焦点 。 

接 下 来 的 几 个 示例 程序 演示 了 利用 MMX 指令 集 处 理 8 位 无 符号 整 型 数组 的 方法 。 第 一 
个 程序 中 ,我 们 将 学 习 如 何 确 定 一 个 数组 中 的 最 大 值 和 最 小 值 。 该 程序 有 某 种 实用 性 ， 因 为 
在 数字 图 像 中 经 常 使 用 8 位 无 符号 整 型 数组 来 表示 位 于 内 存 中 的 图 像 ， 且 很 多 图 像 处 理 算法 
需要 确定 一 幅 图 像 中 的 最 小 (最 暗 ) MEAK (RE) 的 像素 。 第 二 个 程序 演示 了 如 何 计算 一 
个 数组 的 平均 值 。 这 是 图 像 处 理 领域 中 另 一 种 很 实用 的 算法 。 

在 本 书 的 前 言 中 我 们 已 经 讲 过 x86 汇编 语言 可 以 被 用 于 提升 某 些 算法 的 性 能 ， 但 到 目前 
为 止 还 没有 看 到 任何 证 据 来 证 实 这 个 说 法 。 这 种 情况 将 在 本 节 得 到 改观 。 为 了 量化 时 间 和 便 
于 比较 ,两 个 示例 程序 中 的 关键 算法 既 有 C++ 版本， 也 有 x86 汇编 语言 版 本 。 关 于 时 间 测 
量 的 具体 细节 将 会 在 后 文中 讨论 。 


6.2.1 整数 数组 处 理 

本 节 的 示例 程序 名 ill! MmxCalcMinMax ， 它 可 以 计算 一 个 8 位 无 符号 整数 数组 的 最 大 值 
和 最 小 值 。 该 程序 还 展示 了 一 些 技术 ， 这 些 技术 可 被 用 来 衡量 一 个 x86 汇编 语言 函数 的 性 
能 。 源 代码 文件 MmxCalcMinMax.h、MmxCalcMinMax.cpp 和 MmxCalcMinMax .asm 分 别 
在 清单 6-9、 清 单 6-10 和 清单 6-11 中 给 出 。 

清单 6-9 MmxCalcMinMax.h 
#pragma once 
#include "MiscDefs.h" 


// MmxCalcMinMax.cpp 中 定义 的 函数 
extern bool MmxCalcMinMaxCpp(Uint8* x, int n, Uint8* x min, Uint8* x max); 


// MnxCalcMinMaxTimed.cpp 中 定义 的 函数 
extern void MmxCalcMinMaxTimed(void) ; 


// MnxCalcMinMax .asm 中 定义 的 函数 
extern "C" bool MmxCalcMinMax (Uint8* x, int n, Uint8* x min, Uint8* x max); 


// 通用 常量 
const int NUM ELEMENTS = 0x800000; 
const int SRAND SEED - 14; 





清单 6-10 MmxCalcMinMax.cpp 
#include "stdafx.h" 
#include "MmxCalcMinMax.h" 
#include «stdlib.h» 
extern "C" int NMIN = 16; // 数组 元 素 的 最 小 个 数 
bool MmxCalcMinMaxCpp(Uint8* x, int n, Uint8* x min, Uint8* x max) 


if ((n « NMIN) || ((n & oxof) != 0)) 
return false; 


Uint8 x min temp - Oxff; 
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} 


Uint8 x_max temp = 0; 


for (int i = 0; i < n; i+) 


{ 
Uint8 val = *x++; 
if (val < x_min_temp) 
x_min_temp = val; 
else if (val > x_max_temp) 
x_max_temp = val; 
} 


*x_min = x_min_temp; 
*x_max = x_max_temp; 
return true; 


void MmxCalcMinMax() 


{ 


int 


.const 
StartMinVal qword Offffffffffffffffh ;初始 化 组 合 最 小 值 
StartMaxVal qword 0000000000000000h ;初始 化 组 合 最 大 值 
.Code 
extern NMIN:dword ;数组 的 最 小 长 度 


; extern "C" bool MmxCalcMinMax (Uint8* x, int n, Uint8* x min, Uint8*e 


const int n - NUM ELEMENTS; 
Uint8* x = new Uint8[n]; 


// 用 已 知 的 最 小 值 和 最 大 值 初始 化 测试 数组 
srand(SRAND SEED); 
for (int i = 0; i < n; i++) 

x[i] = (Uint8)((rand() % 240) + 10); 


x[n / 4] = 4; 

x[n / 2] = 252; 

bool rci, rc2; 

Uint8 x mini = 0, x maxi = 0; 
Uint8 x min2 = O, x max2 = 0; 


rci = MmxCalcMinMaxCpp(x, n, 8&x mini, &x maxi); 
rc2 - MmxCalcMinMax (x, n, &x min2, &x max2); 


printf("\nResults for MmxCalcMinMax() Wn"); 


printf("rci: %d x mini: X3u x maxi: %3u\n", rci, x mini, x max1); 
printf("rc2: Xd x min2: %3u x max2: %3u\n", rc2, x min2, x max2); 


delete[] x; 


_tmain(int argc, _TCHAR* argv[]) 


MmxCalcMinMax(); 
MmxCalcMinMaxTimed() ; 
return 0; 


清单 6-11 MmxCalcMinMax_.asm 


.model flat,c 


x max); 


> 
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; HR. 下 面 的 函数 计算 一 个 8 位 无 符号 整数 数组 的 最 小 值 和 最 大 值 


, 


; Returns: 0 


2 


invalid 'n' 
success 


1 


MmxCalcMinMax proc 


push ebp 
mov ebp,esp 


; 确保 n 是 有 效 的 


; 初始 化 


xor eax,eax 
mov ecx, [ebp+12] 
cmp ecx, [NMIN] 
jl Done 

test ecx,Ofh 
jnz Done 


shr ecx,4 

mov edx, [ebp+8] 

movq mm4, [StartMinVal] 
movq mm6,mm4 

movq mm5, [StartMaxVal] 
movq mm7,mm5 


; 扫描 数组 以 获取 最 小 值 和 最 大 值 


@@: 


movq mmo, [edx] 
movq mmi, [edx+8] 
pminub mm6,mmo 
pminub mm4,mm1 
pmaxub mm7,mmO 
pmaxub mm5,mm1 
add edx,16 

dec ecx 

jnz GB 


; 确定 最 终 的 最 小 值 


@@: 


pminub mm6,mm4 

pshufw mmO,mm6,00001110b 
pminub mm6,mmo 

pshufw mmO,mm6,00000001b 
pminub mm6,mmo 

pextrw eax,mm6,0 

cmp al,ah 

jbe @F 

mov al,ah 

mov edx, [ebp+16] 

mov [edx],al 


; 确定 最 终 的 最 大 值 


pmaxub mm7,mm5 

pshufw mmo,mm7,00001110b 
pmaxub mm7,mmO 

pshufw mmo,mm7,00000001b 
pmaxub mm7,mmO 

pextrw eax,mm7,0 

cmp al,ah 

jae @F 

mov al,ah 

mov edx,[ebp«20] 

mov [edx] ,al 


;设置 错误 返回 码 


;ecx = 'n 
;如 果 n < NMIN 就 跳 转 


;如 果 n & OxOf != 0 就 跳 转 


;ecx = 16 字 节 块 的 数量 
;edx = 指向 'x' 的 指针 


;mm6:mm4 当前 最 小 值 


;mm7 :mm5 当前 最 大 值 


;mm0 = 组 合 的 8 字 节 

;mm1 = 组 合 的 8 字 节 

;mm6 = 更 新 过 的 最 小 值 

;mm4 = 更 新 过 的 最 小 值 

;mm7 = 更 新 过 的 最 大 值 

;mm5 = 更 新 过 的 最 大 值 

;将 edx 指向 下 一 个 16 字 节 块 


;如 果 还 有 数据 就 跳 转 
;mm6[63:0] = 最 终 的 8 个 最 小 值 
jmm0[31:0] = mm6[63:32] 


;mm6[31:0] = 最终 的 4 个 最 小 值 
;mm0[15:0] = mm6[31:16] 
jmm6[15:0] = 最 终 的 两 个 最 小 值 
jax = 最 终 的 两 个 最 小 值 


;如 果 al <= ah 就 跳 转 
;al = 最 终 的 最 小 值 


;保存 最 终 的 最 小 值 
;mm7[63:0] = 最 终 的 8 个 最 大 值 
jmm0[31:0] = mm7[63:32] 
;mm7[31:0] = 最 终 的 4 个 最 大 值 
;mm0[15:0] = mm7[31:16] 


;mm7[15:0] = 最 终 的 两 个 最 大 值 
jax = 最 终 的 两 个 最 大 值 


;如 果 al >=ah 就 跳 转 
;al = 最 终 的 最 大 值 


;保存 最 终 的 最 大 值 


B 
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; 清除 MMX 状态 并 设置 返回 码 
emms 
mov eax,1 


Done: pop ebp 
ret 
MmxCalcMinMax endp 
end 


文件 MmxCalcMinMax.cpp (清单 6-10 ) 的 开头 是 一 个 名 叫 MmxCaleMinMaxCpp If FR 
数 。 这 个 函数 是 C++ 实现 的 算法 ,算法 该 算法 对 一 个 8 位 无 符号 整数 数组 进行 扫描 ， 以 找 
出 其 中 的 最 大 值 和 最 小 值 。 该 函数 的 参数 包括 指向 数组 的 指针 、 数 组 中 的 元 素 个 数 以 及 用 以 
返回 最 大 值 和 最 小 值 的 指针 。 算 法 本 身 包含 一 个 简单 循环 ， 该 循环 检查 每 个 数组 元 素 以 确定 
其 是 否 比 当前 的 最 小 值 更 小 或 比 当 前 的 最 大 值 更 大 。MmxCalcMinMaxCpp 丙 数 中 需要 注意 
的 一 点 是 数组 的 大 小 必须 大 于 等 于 16 且 能 被 16 整除 。 这 样 限制 有 两 个 原因 。 第 一 ， 可 以 简 
化 实现 与 MmxCalcMinMaxCpp 相同 算法 的 汇编 语言 函数 的 代码 。 第 二 ， 不 需要 增加 额外 的 
代码 来 处 理 零头 像素 块 ， 以 提升 性 能 。 

MmxCalcMinMax.cpp 文件 中 还 包含 一 个 名 叫 MmxCalcMinMax 的 函数 ， 它 会 初始 化 
一 个 测试 数组 、 调 用 相应 的 C++ 和 汇编 语言 函数 并 显示 结果 。 除 了 两 个 用 于 确认 算法 正确 


性 的 元 素 以 外 ， 测 试 数组 是 用 标准 库 函 数 rand PK] AA HEY. FR MmxCalcMinMax 是 从 _ 


tmain 中 调用 的 。 男 外 要 注意 的 是 _tmain 还 调用 了 一 个 名 为 MmxCalcMinMaxTimed [I FR 
数 ， 其 代码 用 来 衡量 MmxCalcMinMax fl MmxCaleMinMax 的 性 能 。 本 节 后 续 将 讨论 该 
KXU 

TL 4818 7i PRX MmxCalcMinMax (清单 6-11) 实现 了 与 前 面 的 C++ 函数 相同 的 算法 ， 
但 有 一 个 显著 的 不 同 ， 即 它 使 用 8 字 节 组 合 数据 来 处 理 数 组 元 素 ， 这 是 MMX 寄存 器 中 能 在 
放 的 8 位 整数 的 最 大 个 数 。 函 数 MmxCalcMinMax_ 的 开始 会 检验 参数 n 的 大 小 是 否 有 效 。 

验证 过 n 以 后 ， 函 数 MmxCalcMinMax 进行 了 一 些 基 本 的 初始 化 工作 。shr ecx, 
4 指令 用 于 计算 数组 中 的 16 字 节 块 的 个 数 。 之 所 以 要 计算 16 字 节 块 的 个 数 ， 是 因为 
MmxCalcMinMax 的 循环 处 理 中 每 次 迭代 会 分 析 16 个 字 节 ， 这 比 每 次 迭代 分 析 8 字 节 稍 快 。 
我 们 将 在 第 21 章 了 解 到 这 是 为 什么 。 在 将 EDX 寄存 器 初始 化 为 指向 数组 x 的 指针 以 后 ， 函 
数 代码 整理 了 寄存 器 对 MM6:MM4 和 MM7:MM5， 以 便 记 录 数 组 中 当前 的 最 小 值 和 最 大 值 。 
注意 ,与 C++ 算法 实现 不 同 的 是 ， 汇 编 语言 版 本 会 同时 记录 16 个 最 小 值 和 最 大 值 。 在 循环 
处 理 结束 以 后 ， 算 法 会 使 用 前 面 提 到 的 寄存 器 对 来 确定 最 终 的 数组 最 小 值 和 最 大 值 。 

MmxCalcMinMax 中 的 循环 处 理 非常 简短 ， 每 次 迭代 中 ， 指 令 movq mmO[edx] 和 
movq mml, [edx+8] 将 下 一 个 像素 块 加 载 到 寄存 器 MMO fll MMI 中 。 然 后 程序 使 用 两 个 
pminub (组 合 无 符号 字 节 整数 的 最 小 值 ) 指令 将 该 像素 块 与 当前 的 最 小 值 作对 比 。pminub 
指令 对 指定 寄存 器 中 参与 对 比 的 元 素 做 无 符号 比较 ， 并 将 较 小 的 元 素 存 放 到 目标 操作 数 中 。 
当前 的 最 大 值 会 以 同样 的 方式 利用 两 个 连续 的 pmaxub (组 合 无 符号 字 节 整数 的 最 大 值 ) 指 
令 来 更 新 。 对 数组 的 处 理会 一 直 持续 到 所 有 的 元 素 都 被 检查 完 。 循 环 处理 完 成 以 后 ， 寄 存 器 
对 MM6: MM4 和 MM7: MM5 分 别 包 含 了 组 合 最 小 值 和 最 大 值 。 

循环 处 理 结束 后 有 一 系列 指令 将 MM6:MM4 中 的 16 个 值 递 减 到 最 终 的 最 小 值 。 这 是 由 
一 系列 pminub pshufw 和 pextrw (提取 字 ) 指令 来 实现 的 ， 如 图 6-4 所 示 。pminub mm6, 
mm4 指令 会 将 组 合 最 小 值 的 数量 由 16 个 降 为 8 个 ， 这 意味 着 此 时 的 最 小 值 可 以 放 到 单个 
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MMX 寄存 器 中 。 接 下 来 pshufw mm0, mm6, 00001110b 指令 将 MM6 中 的 高 位 4 字 节 的 值 复 
制 到 MMO 中 的 低位 字 节 中 。 然 后 pminub mm6, mm0 指令 将 最 小 值 的 数量 由 8 降 为 4 (MM6 
和 MMO 中 的 高 位 双 字 是 不 需要 关注 的 值 )。 接 下 来 pshufw/pminub 指令 序列 将 最 小 值 的 数 
量 降 为 2。 最 终 的 最 小 值 由 以 下 方法 决定 。 首 先 ，pextrw eax, mm6, 0 指令 将 MM6 中 的 低位 
字 型 元 素 (由 立即 操作 数 0 指定 ) 复制 到 寄存 器 EAX 中 的 低位 字 中 ; EAX 中 的 高 位 字 被 设 
为 0。 这 条 指令 执行 过 后 ， 两 个 倒数 第 二 最 小 值 被 存放 在 寄存 器 AH 和 AL 中 。 最 终 的 最 小 
值 使 用 x86 的 比较 和 条 件 跳 转 指令 确定 。 


循环 处 理 后 的 组 合 最 小 值 
OEE Oo 
mmn. 


mm6 
pminub mm6,mm4 


mms ee A 


pshufw mm0,mm6,00001110b 


om [Xx] x] Der] T] 


pminub mm6,mm0 


mms | x] x] x[x|s]«]7] 6 


pshufw mm0,mm6,00000001b 


ud o i s ua 


pminub mm6,mm0 


mms (R -- E | 
ii X 表 示 可 以 忽略 


图 6-4 组 合 最 小 值 的 递减 ， 该 图 中 的 数值 演示 了 MMX 指令 的 执行 过 程 








函数 MmxCalcMinMax 使 用 相似 的 指令 序列 计算 数组 中 的 最 大 值 。 唯 一 的 不 同 是 
使 用 了 pmaxub 指令 而 不 是 pminub 以 及 一 个 不 同 的 条 件 跳 转 。 输 出 6-4 给 出 了 示例 程序 
MmxCalcMinMax 的 执行 结果 。 


输出 6-4 ”示例 程序 MmxCalcMinMax 


Results for MmxCalcMinMax() 
rci: 1 x mini: 4 x maxi: 252 
IC2: 1 x min2: 4 x max2: 252 


Results for MmxCalcMinMaxTimed() 
x mini: 4 x maxi: 252 
x min2: 4 x max2: 252 


Benchmark times saved to file — MmxCalcMinMaxTimed.csv 


输出 6-4 5| FH T CSV (comma-separated value， 豆 号 分 隔 的 数值 ) 文件 的 内 容 ， 该 文 
件 包 含 了 性 能 测量 数据 。 这 个 文件 是 由 函数 MmxCalcMinMaxTimed 创建 的 ， 该 函数 测量 
了 函数 MmxCalcMinMaxCpp 和 MmxCaleMinMax 的 性 能 。 清 单 6-12 给 出 了 MmxCalc- 
MinMaxTimed.cpp 文件 的 源 代码 。 
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清单 6-12 MmxCalcMinMaxedTimed.cpp 


#include "stdafx.h" 
#include "MmxCalcMinMax.h" 
#include "ThreadTimer.h" 
#include «stdlib.h» 


void MmxCalcMinMaxTimed(void) 

{ 
// 强制 当前 线程 在 一 个 处 理 器 上 执行 
ThreadTimer: :SetThreadAffinityMask(); 


const int n = NUM ELEMENTS; 
Uint8* x = new Uint8[n]; 


// 用 已 知 的 最 小 值 和 最 大 值 初始 化 测试 数组 
srand(SRAND SEED); 
for (int i = 0; i < n; i++) 

x[i] = (Uint8)((rand() % 240) + 10); 


x[n / 4] = 4j 
x[n / 2] = 252; 


LU 


const int num it - 100; 
const int num alg - 2; 
const double et scale = 1.0e6; 


double et[num it][num alg]; 
Uint8 x mini - O, x maxi - 0; 
Uint8 x min2 - O, x max2 - 0; 
ThreadTimer tt; 


for (int i = 0; i « num it; i++) 
{ 
tt.Start(); 
MmxCalcMinMaxCpp(x, n, &x mini, &x_max1); 
tt.Stop(); 
et[i][o] = tt.GetElapsedTime() * et scale; 


for (int i = 0; i < num it; i++) 
{ 
tt.Start(); 
MmxCalcMinMax (x, n, &x min2, &x max2); 
tt.Stop(); 
et[i][1] = tt.GetElapsedTime() * et scale; 


const char* fn - " MmxCalcMinMaxTimed.csv"; 
ThreadTimer::SaveElapsedTimeMatrix(fn, (double*)et, num it, num alg); 


printf("\nResults for MmxCalcMinMaxTimed() Wn"); 
printf("x mini: X3u x maxi: %3d\n", x mini, x maxi); 
printf("x min2: *3u x max2: %3d\n", x min2, x max2); 
printf("\nBenchmark times saved to file %s\n", fn); 
delete[] x; 

} 





函数 MmxCalcMinMaxTimed 依靠 一 个 名 叫 ThreadTimer 的 C++ 类 来 测量 一 段 代 码 的 执 
行 要 花 多 长 时 间 。 这 个 类 使 用 了 一 些 Windows API 函数 (比如 QueryPerformanceCounter 和 
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QueryPerformanceFrequency ) 来 实现 一 个 简单 的 软件 秒表 。 成 员 函 数 ThreadTimer::Start 和 

ThreadTimer::Stop 用 来 记录 一 个 系统 计数 器 的 数值 ， 而 ThreadTimer::GetElapsedTime 用 来 

计算 计数 器 启动 和 停止 时 相差 的 秒 数 。 类 ThreadTimer 中 还 包含 了 一 些 用 于 管理 进程 和 线程 

亲缘 性 的 成 员 函 数 。 这 些 成 员 函 数 可 以 为 一 个 进程 或 线程 选择 一 个 特定 的 CPU 来 执行 ， 这 

可 以 增加 时 间 测 量 的 准确 性 。 类 ThreadTimer 的 源 代 码 没 有 在 这 里 给 出 ， 只 包含 在 软件 包 中 

供 下 载 。 表 6-1 中 包含 了 在 不 同 CPU 上 MmxCaleMinMaxCpp 和 MmxCaleMinMax pri LAY 
171] 平均 执行 时 间 。 


表 6-1 MmxCalcMinMax 函数 的 平均 执行 时 间 (单位 : 微 秒 ) 





CPU MmxCalcMinMaxCpp (C++) MmxCalcMinMax_ (x86-32 MMX) 
Intel Core 17-4770 10813 364 
Intel Core i7-4600U 12833 570 
Intel Core 13-2310M 20980 950 


在 输出 6-4 中 我 们 可 以 看 到 ， 运 行 可 执行 文件 MmxCaleMinMax.exe 会 生成 _ Mmx- 
CalcMinMaxTimed.csv 文 件 。 这 个 EXE 文 件 是 由 Visual C++ 编译 的 ， 使 用 了 Release 
Configuration 选项 和 代码 优化 的 缺 省 设置 。 所 有 的 时 间 测 量 都 是 基于 普通 的 台式 机 和 笔记 本 
电脑 进行 的 ， 运 行 的 操作 系统 是 Windows 8.x 1% Windows 7 Service Pack 1。 在 运行 示例 程 
序 的 可 执行 文件 之 前 ， 我们 并 没有 尝试 将 电脑 之 间 的 硬件 、 软 件 、 操 作 系 统 或 配置 的 差异 纳 
入 考虑 范围 之 内 。 

X 6-1 中 的 数值 是 使 用 Excel 表格 函数 TRIMMEAN(array, 0.10) 和 CSV 文件 中 的 执行 
时 间 算 出 来 的 。 对 于 示例 程序 MmxCaleMinMax, ， 基 于 x86-32 MMX 实现 的 最 大 最 小 值 算法 
明显 超越 了 C++ 版 本 的 算法 一 大 截 。 但 我 们 必须 指出 示例 程序 MmxCalcMinMax 中 所 看 到 
的 性 能 提升 不 是 特别 典型 。 然 而 ， 使 用 x86 汇编 语言 来 显著 提升 运算 性 能 并 非 偶 然 ， 特 别 是 
当 发 挥 出 处 理 器 的 SIMD 并 行 计算 功能 时 。 在 本 书 的 其 他 章节 ， 我 们 将 看 到 更 多 提升 算法 性 
能 的 例子 。 

与 汽车 燃料 经 济 学 评估 和 智能 手机 电池 续航 时 间 预 测 一 样 ， 软 件 性 能 测试 也 不 是 精确 的 
科学 。 测 试 的 进行 以 及 结果 的 得 出 都 必须 基于 某 种 特定 的 场景 ， 这 种 场景 对 于 性 能 测试 本 身 
和 目标 执行 环境 都 应 该 是 合理 的 。 我 们 这 里 使 用 的 测试 执行 时 间 的 方法 是 有 一 般 意义 的 ， 但 
测试 可 能 有 所 不 同 ， 取 决 于 测试 电脑 的 配置 。 在 进行 性 能 测试 时 ， 我 们 会 发 现在 绝 大 多 数 情 
况 下 ， 执 行 时 间 的 相对 差异 比 绝 对 值 更 有 价值 。 


6.2.2 使 用 MMX 和 x87 FPU 


本 章 的 最 后 一 个 例子 名 为 MmxCalcMean， 它 的 作用 是 计算 一 个 8 位 无 符号 整数 数组 的 

算术 均值 。 这 个 例子 还 将 演示 如 何 对 组 合 无 符号 整数 扩容 (size-promote) 以 及 如 何在 一 个 包 

含 MMX 指令 的 函数 中 使 用 x87 FPU 指令 。 清 单 6-13 、 清 单 6-14 和 清单 6-15 列 出 了 这 个 例 
子 的 源 代码 。 


清单 6-13 MmxCalcMean.h 








#pragma once 


#include "MiscDefs.h" 
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// MnxCalcMean.cpp 中 定义 的 函数 
extern bool MmxCalcMeanCpp(const Uint8* x, int n, Uint32* sum x, double*« 
mean); 


// MnxCalcMeanTimed.cpp 中 定义 的 函数 
extern void MmxCalcMeanTimed(void) ; 


// MmxCalcMean .asm 中 定义 的 函数 
extern "C" bool MmxCalcMean (const Uint8* x, int n, Uint32* sum x, double*# 


mean); 


// 公共 常量 
const int NUM ELEMENTS = 0x800000; 
const int SRAND SEED - 23; 





清单 6-14 MmxCalcMean.cpp 





#include "stdafx.h" 
#include "MmxCalcMean.h" 
#include <stdlib.h> 


extern "C" int NMIN = 16; // 元 素 个 数 最 小 值 
extern "C" int NMAX = 16777216; // 元 素 个 数 最 大 值 


bool MmxCalcMeanCpp(const Uint8* x, int n, Uint32* sum x, double* mean x) 


if ((n « NMIN) || (n » NMAX) || ((n & oxof) != 0)) 
return false; 


Uint32 sum x temp - 0; 
for (int i = 0; i« nj; ie) 
sum x temp += x[i]; 


*sum x - sum x temp; 
*mean x - (double)sum x temp / n; 
return true; 


) 


void MmxCalcMean() 
{ 
const int n = NUM ELEMENTS; 
Uint8* x = new Uint8[n]; 173 
srand(SRAND SEED); 
for (int i = 0; i < n; i++) 
x[i] = rand() % 256; 


bool rc1, rc2; 
Uint32 sum x1 - O, sum x2 


= 0; 
double mean x1 = 0, mean x2 = 


0; 


M 


rci = MmxCalcMeanCpp(x, n, &sum x1, &mean x1); 
rc2 = MmxCalcMean (x, n, &sum x2, &mean x2); 


printf("\nResults for MmxCalcMean() Wn"); 
printf("rci: 4d sum xi: Xu mean x1: %12.61f\n", rci, sum x1, mean x1); 
printf("rc2: %d sum x2: Xu mean x2: %12.61f\n", rc2, sum x2, mean x2); 
delete[] x; 

) 


int tmain(int argc, TCHAR* argv[]) 
{ 
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MmxCalcMean(); 
MmxCalcMeanTimed(); 
return 0; 


清单 6-15 MmxCalcMean .asm 


.model flat,c 
.code 
extern NMIN:dword, NMAX:dword ; 数组 长 度 的 最 小 和 最 大 值 


j extern "C" bool MmxCalcMean (const Uint8* x, int n, Uint32* sum x, double* ~ 
mean); 


; 描述 ， 本 函数 计算 8 位 无 符号 整数 数组 的 和 及 均值 


'n' 无 效 


; 返回 值 ; 0 
; 成 功 


; 1 


MmxCalcMean proc 


push ebp 
mov ebp,esp 
sub esp,8 ; 供 x87 传输 的 局 部 变量 


; 检查 n 是 否 有 效 
xor eax,eax ; 设置 错误 返回 码 
mov ecx, [ebp+12] 
cmp ecx, [NMIN] 


jl Done ; 如果 n < NMIN 跳 转 
cmp ecx, [NMAX] 
jg Done ;如 果 n > NMAX 跳 转 
test ecx,0fh 
jnz Done ;如果 nX16!-0 跳 转 
shr ecx,4 ;16 字 节 块 的 个 数 
; 初始 化 
mov eax, [ebp+8] ; 指向 数组 'x* 
pxor mm4,mm4 
pxor mm5,mm5 ;mm5:mm4 = 组 合 和 (4 RF) 
pxor mm7,mm7 ;mm7 = 用 于 扩展 的 组 合 0 
; 加 载 下 一 个 16 字 节 块 
@0: movq mmo, [eax] 
movq mmi, [eax+8] ;mmi:mmO -16 FHH 


; 把 数组 值 从 字 节 扩展 到 字 ， 然 后 对 字 求 和 
movq mm2,mmo 
movq mm3,mm1 


punpcklbw mmo,mm7 ;mm0 = 4 字 
punpcklbw mm1,mm7 ;mml = 4 字 
punpckhbw mm2,mm7 ;mm2 = 4 字 
punpckhbw mm3 ,mm7 ;mm3 = 4 字 

paddw mmo,mm2 

paddw mmi,mm3 

paddw mmo,mm1 ;mm0 = 组 合 和 (4 字 ) 


; 把 组 合 和 扩展 为 双 字 ， 然 后 更 新 mm5:mm4 中 的 双 字 和 
movq mmi,mmo 
punpcklwd mmo,mm7 ;mm0 = 组 合 和 (2 双 字 ) 
punpckhwd mm1,mm7 ;mm1 = 组合 和 (2 双 字 ) 


B 


MMX ERAH 





paddd mm4,mmo 
paddd mm5,mm1 


add eax,16 
dec ecx 
jnz @B 


;计算 最 终 的 sum_x 
paddd mm5,mm4 
pshufw mm6,mm5,00001110b 
paddd mm6,mm5 
movd eax,mm6 
emms 


; 计算 均值 
mov dword ptr [ebp-8],eax 
mov dword ptr [ebp-4],0 
fild qword ptr [ebp-8] 
fild dword ptr [ebp+12] 
fdivp 


mov edx, [ebp+20] 
fstp real8 ptr [edx] 
mov edx, [ebp+16] 
mov [edx],eax 

mov eax,1 


Done: mov esp,ebp 
pop ebp 
ret 
MmxCalcMean endp 
end 
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;mm5:mm4 = AAA (4 双 字 ) 
;eax = 下 一 个 16 字 节 块 

; 如 果 没 完成 则 循环 

;mm5 = 组合 和 (2 WS ) 
;mm6[31:0] = mm5[63:32] 
;mm6[31:0] = 最终 的 sum_x 
jeax = sum x 

; 清除 mmx 状态 175 
;把 sum_x 保存 为 64 位 
;加 载 sum_x 

;加 载 n 

;mean = sum x / n 

; 保存 均值 


;保存 sum_x 
;设置 返回 码 


MmxCalcMean 的 总 体 结构 与 MmxCalcMinMax 很 类 似 。 在 MmxCalcMean.cpp (清单 6-14 ) 


的 起 始 部 分 是 一 个 名 为 MmxCaleMeanCpp 的 图 数 ， 它 的 作用 是 计算 8 位 无 符号 整数 数组 
的 均值 。 这 个 数组 的 最 大 大 小 是 有 限制 的 ， 以 防止 对 数组 元 素 求 和 时 发 生计 算 溢出 。 函 数 
MmxCalcMean 创建 一 个 测试 数组 ， 调 用 MmxCalcMeanCpp fil MmxCaleMean 并 显示 结果 。 
示例 程序 MmxCalcMean 还 包含 一 个 性 能 测试 函数 ， 名 为 MmxCalcMeanTimed (没有 显示 源 
代码 )， 它 用 来 测量 MmxCaleMeanCpp 和 MmxCalcMean 的 执行 时 间 。 

与 C++ 版 本 类 似 ， 使 用 x86 汇编 语言 编写 的 MmxCalcMean 函数 (清单 6-15 ) 首先 检 
查 数组 的 大 小 。 然 后 这 个 函数 建立 一 个 处 理 循环 ， 对 数组 的 元 素 求 和 。 在 计算 数组 的 和 时 , 
处 理 循环 执行 两 次 容量 升级 ， 以 防止 计算 溢出 。 图 6-5 演示 了 这 个 过 程 。 首 先 ， 我 们 使 用 
punpcklbw 和 punpckhbw 指令 (注意 源 操作 数 MM7 包含 的 是 全 0 ) 把 16 个 数组 元 素 从 无 符 
号 字 节 升 级 为 无 符号 字 。 然 后 使 用 一 系列 paddw 指令 把 这 些 值 累加 起 来 。 在 执行 完 最 后 一 
个 paddw 指令 后 ， 寄 存 器 MMO 包含 四 个 中 间 结 果 。 然 后 我 们 把 和 值 升 级 为 双 字 ， 并 累加 为 
组 合 双 字 ， 放 在 寄存 器 对 MM5:MM4 中 。 

在 完成 累加 循环 之 后 ， 我 们 使 用 两 条 paddd 指令 和 一 条 pshufw 指令 来 计算 最 终 的 和 值 
sum x， 然 后 把 这 个 值 复 制 到 寄存 器 EAX。 在 计算 最 终 的 均值 之 前 ， 程 序 执行 了 一 条 emms 
指令 ， 以 便 让 x87 FPU 返回 到 正常 工作 状态 。 而 后 把 sum x 的 值 以 64 位 带 符号 整数 的 形式 
保存 到 栈 上 的 局 部 内 存 〈 回 忆 x87 FPU 不 支持 无 符号 整数 操作 数 ， 也 不 支持 与 x86 通用 寄存 
器 之 间 的 数据 传递 )。 最 后 ， 使 用 x87 FPU 计算 最 终 的 均值 。 
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字 节 值 
spase] Bere pns pene] 














movq mm3,mm1 movq mm2,mm0 
字 节 到 字 升 级 
ws] e e 
punpcklbw mm1,mm7 punpcklbw mm0,mm7 
15 100 200 35 240 170 65 220 
punpckhbw mm3,mm7 punpckhbw mm2,mm7 
Ate 3 
225 250 240 115 290 290 295 | «o | 
paddw mm1,mm3 paddw mm0,mm2 





| 515 | so | ss | s25 | 


paddw mm0,mm1 





字 到 双 字 升级 


| sis 540 | 535 525 


movq mml,mm0 


Dea] =e 


punpckhwd mml,mm7 punpcklwd mm0,mm7 











ik: mm7 = 0x0000000000000000 
图 6-5 处理 循环 数组 元 素 扩 容 


输出 6-5 显示 了 运行 示例 程序 MmxCalcMean 的 结果 。 表 6-2 中 列 出 了 计算 这 个 数组 均 
值 的 算法 的 C++ 版 本 和 汇编 语言 版 本 的 性 能 测试 结 


输出 6-5 ”示例 程序 MmxCalcMean 


Results for MmxCalcMean() 
rci: 1 sum x1: 1069226624 mean x1: 127.461746 
rc2: 1 sum x2: 1069226624 mean x2: 127.461746 


Results for MmxCalcMeanTimed() 
sumi: 1069226624 mean1: 127.461746 
sum2: 1069226624 mean2: 127.461746 


Benchmark times saved to file ^ MmxCalcMeanTimed.csv 








表 6-2 MmxCalcMean 函数 的 平均 执行 时 间 (毫秒 ) 





CPU MmxCalcMeanCpp (C++) MmxCalcMean_ (x86-32 MMX) 
Intel Core i7-4770 1750 843 
Intel Core i7-4600U 2074 995 


Intel Core i3-2310M 4184 1704 
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6.3 总 结 

本 章 先 介绍 了 如 何 使 用 MMX 指令 集 做 一 些 基 本 的 SIMD 算术 运算 和 移 位 操作 。 然 后 ， 
我 们 分 析 了 很 多 个 示例 程序 ， 展 示 了 使 用 MMX 技术 实现 有 实际 意义 的 整数 数组 处 理 算 法 的 
性 能 优势 。 这 些 示 例 程 序 也 阐释 了 一 些 MMX 关键 指令 的 使 用 方法 ， 包 括 pshufw, punpc- 
klbw, punpckhbw, punpcklwd 和 punpckhwd。 

为 了 充分 发 挥 SIMD 架构 的 优势 ， 很 多 时 候 软 件 开发 者 必须 “忘记 ”以 前 建立 的 编码 
习惯 、 技 术 和 结构 。 要 设计 和 实现 出 高 效 的 SIMD 算法 常常 需要 把 以 前 的 编程 思路 做 个 急 转 
弯 。 在 学 习 使 用 SIMD 架构 时 ， 非 常 有 经 验 的 程序 员 很 可 能 也 要 把 编程 思想 做 些 改变 。 在 接 
下 来 的 四 章 中 ， 我 们 将 继续 探索 x86 的 SIMD 计算 平台 一 一 x86-SSE。 
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流 式 SIMD 扩展 


在 第 5 章 和 第 6 章 中 ,我 们 介绍 了 MMX 技术 ， 这 是 x86 平台 的 第 一 个 SIMD 增强 。 在 
本 章 中 ， 我 们 将 探索 MMX 技术 的 后 续 技术 。x86 的 流 式 SIMD 扩展 ( x86-SSE) 是 对 用 以 
提升 x86 平 台 的 SIMD 计算 能 力 的 一 系列 架构 化 增强 技术 的 总 称 。x86-SSE 针对 组 合 浮 点 
( packed floating-point) 数据 类 型 增加 了 新 的 寄存 器 和 指令 ， 并 且 对 MMX 技术 的 整数 SIMD 
处 理 能 力 做 了 扩展 。 

本 章 先 对 x86-SSE 做 一 个 简要 的 概览 ， 包 括 它 的 不 同 版 本 和 能 力 。 接 下 来 对 执行 环境 
进行 详细 介绍 ， 重 点 是 x86-SSE 的 寄存 器 、 支 持 的 数据 类 型 以 及 控制 状态 机 制 。 然 后 将 介 
绍 x86-SSE 的 一 些 基 本 处 理 技术 ， 目 的 是 帮助 大 家 理解 这 个 平台 的 计算 能 力 。 最 后 一 节 将 对 
x86-SSE 指令 集 做 总 体 介 绍 。 

本 章 的 阐述 和 讨论 集中 在 x86-32 执行 环境 下 的 x86-SSE。 如 果 你 对 x86-64 环境 下 的 
x86-SSE 编程 感 兴趣 ， 那 么 你 需要 先 充 分 理解 本 章 的 基础 知识 ， 然 后 再 阅读 第 19 章 的 内 容 。 


7.1 x86-SSE 概览 

isk SIMD 扩展 的 最 初版 本 称 为 SSE， 是 随 奔腾 看 处 理 器 引入 的 。SSE 增加 了 用 于 对 
组 合 单 精度 浮 点 数 执行 SIMD 运算 的 寄存 器 和 指令 。SSE 中 也 包含 对 标量 单 精度 浮 点 数 进 
行 算术 运算 的 新 指令 。 奔 腾 IV 处 理 器 引入 了 SSE 的 升级 版 本 ， 称 为 SSE2， 把 SSE 的 单 精 
度 浮 点 能 力 扩 展 为 双 精 度 浮 点 运算 (包括 组 合 和 标量 )。SSE2 还 包含 了 更 多 的 用 于 组 合 整 数 
的 SIMD 处 理 资源 。 在 这 一 章 的 后 面 ， 我 们 将 详细 介绍 SSE 和 SSE2 支持 的 组 合 和 标量 数据 
类 型 。 

在 SSE2 之 后 ， 还 有 很 多 对 x86-SSE 的 增强 。SSE3 和 SSSE3 ( Supplemental SSE3 ) 包 
含 了 一 系列 新 的 指令 ， 用 以 对 组 合 浮 点 数 和 组 合 整数 操作 数 分 别 执行 SIMD KFE (HRR 
元 素 ) 算术 计算 。 这 些 扩展 还 包含 了 很 多 数据 传输 指令 ， 有 的 是 为 了 提高 性 能 ， 有 的 是 为 了 
增加 编程 的 灵活 度 。SSE4.1 包含 了 用 来 做 高 级 SIMD 运算 的 新 指令 ， 包 括 点 积 和 数据 混合 
(data blending)。 它 还 增加 了 新 的 数据 插入 、 数 据 提取 和 浮 点 舍 人 指令 。SSE4.2 是 对 x86- 
SSE 的 最 后 一 次 扩展 ， 它 为 x86 平台 添加 了 SIMD 文本 串 处 理 能 力 。 表 7-1 归纳 了 x86-SSE 
的 演进 过 程 ， 其 中 使 用 了 SPFP 和 DPFP 缩 略 语 ， 分 别 用 来 代表 单 精 度 浮 点 (single-precision 
floating-point) 和 双 精 度 浮 点 (double-precision floating-point) o 


表 7-1 x86-SSE 的 演进 过 程 






关键 功能 和 增强 
使 用 组 合 SPFP 的 SIMD 计算 
组 合 SPFP 使 用 SPFP 的 标量 计算 

标量 SPFP 高 速 缓存 控制 指令 

内 存 排 序 指令 
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CHE) 


版 本 数据 类 型 关键 功能 和 增强 


使 用 组 合 SPFP 和 DPFP 的 SIMD 计算 

使 用 SPFP 和 DPFP 的 标量 计算 

使 用 组 合 整数 的 SIMD 处 理 

更 多 的 高 速 缓存 控制 指令 

使 用 组 合 SPFP 和 DPFP 操作 数 水 平 加 法 和 减法 
增强 的 数据 传输 指令 

使 用 组 合 整数 操作 数 水 平 加 法 和 减法 

使 用 组 合 整数 的 增强 SIMD 处 理 指 令 

SPFP 和 DPFP 点 积 

SPFP 和 DPFP 混合 指令 

XMM 寄存 器 插入 和 提取 指令 

组 合 整数 混合 指令 

与 SSE2 相同 组 合 文本 字符 串 指令 

组 合 文本 字符 串 CRC 加 速 指令 


组 合 SPFP、DPFP 
SSE2 标量 SPFP, DPFP 
组 合 整数 





SSE3 与 SSE2 相同 





SSSE3 与 SSE2 相同 


SSE4.1 与 SSE2 相同 





SSE4.2 





本 章 的 后 续 内 容 和 第 8 ~ 11 章 将 详细 探讨 表 7-1 中 所 列 的 关键 功能 和 增强 。 提 醒 一 下 ， 
本 书 使 用 x86-SSE 这 个 术语 来 指 代 普 遍 适 用 于 x86 平 台 各 种 版 本 的 流 式 SIMD 扩展 的 通用 
能 力 ， 当 讨论 针对 某 个 特定 SIMD 增强 的 内 容 时 ， 我 们 会 使 用 表 7-1 中 的 简称 。 


7.2 x86-SSE 执行 环境 

本 节 将 介绍 x86-SSE 的 执行 环境 ， 我 们 会 从 寄存 需 谈 起 ， ra x86-SSE 支持 的 组 
合 和 标量 数据 类 型 。 另 外 还 将 介绍 x86-SSE 的 控制 - 状态 寄存 器 ， 这 个 寄存 器 的 作用 是 配 
置 x86-SSE 的 处 理 选项 和 检测 错误 的 条 件 。 我 们 假定 你 在 阅读 这 一 节 内 容 之 前 已 经 对 第 5 
章 所 描述 的 MMX 技术 有 了 基本 的 理解 。 


7.2.1 x86-SSE 寄存 器 组 


x86-SSE 向 x86 平台 新 增 了 八 个 128 位 宽 的 寄存 器 ， 如 图 7-1 所 示 。 这 些 寄 存 器 被 命名 
为 XMM0 ~ XMM7， 可 以 用 来 对 标量 和 组 合 单 精 度 浮 点 数 做 计算 。 在 支持 SSE2 的 处 理 器 
中 ， 这 些 XMM 寄存 器 支持 对 标量 和 组 合 双 精度 
浮 点 数 做 运算 。SSE2 还 支持 使 用 XMM 寄存 器 对 127 : 
组 合 整数 做 各 种 SIMD 运算 。 

与 MMX 寄存 器 不 同 ，XMM 寄存 器 并 不 是 
x87 FPU 的 别名 。 这 意味 着 程序 在 x86-SSE 和 
x87-FPU 指令 间 切 换 时 不 需要 保存 和 恢复 任何 状 
态 信息 。XMM 寄存 器 是 可 以 直接 寻 址 的 ， 不 是 
使 用 基于 栈 的 架构 。 可 以 使 用 第 1 章 所 描述 的 任 
何 寻 址 模式 在 XMM 寄存 器 和 内 存 之 间 传 输 数 
据 。 不 可 以 使 用 XMM 寄存 器 来 寻 址 内 存 中 的 操 
作 数 。 图 7-1 x86-32 模式 下 的 x86-SSE 寄存 器 组 
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7.2.2 x86-SSE 数据 类 型 


x86-SSE 支持 很 多 种 组 合 和 标量 数据 类 型 ， 如 表 7-2 所 示 。 一 个 128 位 宽 的 XMM 寄存 
器 或 者 内 存单 元 可 以 容纳 4 个 单 精 度 浮 点 数 或 者 两 个 双 精 度 浮 点 数 。 当 处 理 组 合 整数 时 ， 
^r 128 位 宽 的 操作 数 能 够 容纳 16 个 字 节 、8 个 字 、4 个 双 字 或 者 两 个 四 字 ( quadword)。 也 
可 以 使 用 XMM 寄存 器 的 低位 双 字 和 四 字 对 单一 的 标量 单 精 度 和 双 精度 浮 点 数 做 计算 。 图 
7-2 列 出 了 x86-SSE 支持 的 数据 类 型 。 


位 位 置 
:127 112， 96: 80: 64: 48: 32: 16: 0: 
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图 7-2 x86-SSE 支持 的 数据 类 型 








当 引 用 内 存 中 的 操作 数 时 ， 几 乎 所 有 使 用 128 位 宽 操作 数 的 x86-SSE 指令 都 要 求 操作 
数 要 正确 对 齐 。 这 意味 着 一 个 组 合 整数 或 者 组 合 浮 点 数 在 内 存 中 的 地 址 必须 被 16 整除 。 这 
个 规则 只 对 很 少 的 一 部 分 x86-SSE 移动 指令 有 例外 ， 这 些 指令 是 特意 设计 的 ， 可 以 在 没有 正 
确 对 齐 的 组 合 数据 和 XMM 寄存 器 之 间 传 输 数 据 。 如 果 普 通 的 x86-SSE 指令 试图 访问 没有 对 
齐 的 内 存 操作 数 ， 那 么 处 理 器 会 产生 一 个 异常 。 值 得 特别 提醒 的 是 ， 这 样 的 内 存 对 齐 要 求 既 
适用 于 汇编 语言 函数 ， 也 适用 于 C++ 函数 。 在 第 9 章 和 第 10 章 ， 我 们 会 介绍 几 种 在 Visual 
C++ 函数 中 指定 数据 对 齐 规则 的 技术 。 

内 存 中 没有 对 齐 的 标量 单 精 度 和 双 精 度 浮 点 数 可 以 复制 到 XMM 寄存 器 ， 反 之 亦 然 。 不 
过 ， 与 其 他 x86 多 字 节 数据 类 似 ， 我 们 强烈 推荐 把 标量 浮 点 数 做 正确 对 齐 ， 以 避免 可 能 的 性 
能 损失 。 最 后 要 说 明 的 是 ， 与 x87-FPU 不 同 ，x86-SSE 不 支持 组 合 BCD 数据 类 型 。 


7.2.3 x86-SSE 的 控制 - 状态 寄存 器 
x86-SSE 执行 环境 配备 了 一 个 32 位 的 控制 - 状态 寄存 器 。 这 个 寄存 器 名 为 MXCSR， 
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它 包 含 了 一 系列 控制 标志 ， 供 程序 来 指定 浮 点 运算 和 处 理 异 常 的 选项 。 它 还 包含 了 一 组 
状态 标志 ， 程 序 可 以 通过 检查 这 些 状态 标志 检测 x86-SSE 的 浮 点 错误 情况 。 图 7-3 显示 了 
MXCSR 寄存 器 中 的 各 个 位 的 组 织 顺 序 ; K 7-2 描述 了 每 个 二 进 制 位 域 的 作用 。 
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图 7-3 x86-SSE MXCSR (控制 和 状态 寄存 器 ) 


表 7-2 x86-SSE MXCSR 控制 和 状态 寄存 器 的 位 域 








& | 名称 | 描述 
IE x86-SSE 浮 点 无 效 操作 错误 标志 
DE x86-SSE 浮 点 非 规格 化 错误 标志 
ZE x86-SSE 浮 点 除 零 错误 标志 
OE x86-SSE 浮 点 溢出 错误 标志 
UE x86-SSE 浮 点 下 溢 错误 标志 
PE x86-SSE 浮 点 精度 错误 标志 
DAZ 当 设置 为 1 时 ， 计 算 前 把 非 规格 化 操作 数 强制 转化 为 0 
IM x86-SSE If Ak CC HEBR SE HE HES 
DM 非 规格 化 掩 码 x86-SSE 浮 点 非 规格 化 错误 异常 掩 码 
ZM x86-SSE 浮 点 除 零 错误 异常 拖 码 
OM x86-SSE 浮 点 溢出 错误 异常 掩 码 
UM x86-SSE 浮 点 下 溢 错 误 异 常 掩 码 
PM x86-SSE 浮 点 精度 错误 异常 抢 码 
Ee 指定 x86-SSE 浮 点 计算 结果 的 舍 入 方法 。 有 效 的 选项 包括 舍 人 到 最 
RC 舍 人 控制 it (00b), [5] RABI -o (01b), H LF AB +00 ( 10b) 和 向 OF 
人 或 者 截断 ( 11b) 
当 设 置 为 1 时 ， 如 果 发 生 了 下 溢 错 误 而 且 屏 蔽 了 下 溢 异 常 ， 那 么 就 
jis CN uM 为 0 ee 


应 用 程序 可 以 修改 MXCSR 寄存 器 的 任意 控制 标志 或 者 状态 位 ， 以 满足 特定 SIMD 浮 点 
处 理 的 需要 。 如 果 试 图 向 保留 位 写 人 非 零 值 ， 那 么 处 理 器 会 产生 异常 。 错 误 情况 发 生 后 ， 处 
理 器 不 会 自动 清除 MXCSR 的 状态 标志 ; 应 用 程序 必须 手动 复位 。 可 以 使 用 ldmxcsr (加 载 
MXCSR 寄存 器 ) 或 者 fxrstor (恢复 x87 FPU, MMX., XMM 和 MXCSR 状态 ) 指令 来 修改 
MXCSR 寄存 器 的 控制 标志 和 状态 位 。 

当 错 误 情 况 发 生 时 ， 处 理 器 会 把 MXCSR 的 错误 标志 设置 为 1。 把 MXCSR.DAZ 控制 
标志 设置 为 1 有 助 于 提高 程序 的 性 能 ， 前 提 是 把 非 规格 化 数值 伟人 为 0 是 可 以 接受 的 。 类 似 
的 ， 当 浮 点 下 滋 错 误 较 多 时 ， 也 可 以 使 用 MXCSR.FZ 控制 标志 来 提高 计算 速度 。 使 用 这 些 
控制 标志 选项 的 不 利之 处 是 这 样 做 与 IEEE-754 浮 点 标准 不 兼容 。 


7.3 x86-SSE 处 理 技术 
x86 处 理 器 使 用 多 种 不 同 的 技术 来 处 理 x86-SSE 数据 类 型 。 大 多 数 针 对 组 合 整数 操作 数 
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的 x86-SSE SIMD 操作 的 执行 过 程 与 MMX 技术 是 相同 的 ， 只 是 SSE 使 用 128 位 宽 的 操作 
数 而 不 是 64 位 。 举 例 来 说 ， 图 7-4 描述 了 针对 无 符号 整数 组 合 字 节 、 字 和 双 字 的 x86-SSE 
SIMD 加 法 过 程 。x86-SSE 也 支持 针对 组 合 单 精度 和 双 精 度 浮 点 数据 类 型 的 SIMD 算术 计算 。 
图 7-5 和 图 7-6 分 别 显 示 了 针对 组 合 单 精度 和 双 精 度 浮 点 数 的 一 些 常 用 x86-SSE SIMD 计算 


x86-SSE 组 合 无 符号 字 节 加 法 


90 | 10 | 220 170 [so | 20] is [vos 25 | 130 [s] 75 | 95 | 200} 225} 85 | src 
F [so [240] 15 | 20 | 75 | ws [ so | 80 so | 15 | 60 | 70 [125] 30 10 | 95 | des 


[170| 250] 235 | 190 | 135 | 225 | 65 |185| 85 | 145 | 110 | 145 | 220 | 230 | 235 | 180 | des 


x86-SSE 组 合 无 符号 字 加 法 


1700 | 2300 6000 500 22000 15500 12000 18000 | src 
t 80 300 | 900 | 8500 | 16750 32700 25000 | des 


x86-SSE 组 合 无 符号 双 字 加 法 
0000 275000 65000 420500 src 


920000 276800 365750 491000 des 


图 7-4 针对 组 合 无 符号 整数 的 x86-SSE 加 法 



























































x86-SSE 组 合 单 精度 浮 点 加 法 


37.25 100.875 0.125 src 


98.5 —50.625 











—50.125 src 


-200.25 3.625 250.875 ám 
-300.375 363.40625 250875.0 | 200259375 


185 图 7-5 针对 组 合 单 精 度 浮 点 数 的 x86-SSE 算术 运算 








2042.59375 des 
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x86-SSE 组 合 双 精 度 浮 点 减法 
12.0 100.875 src 











x86-SSE 组 合 双 精度 浮 点 除法 





a 6.25 0.625 des 
48.0 408.8 des 





图 7-6 针对 组 合 双 精度 浮 点 数 的 x86-SSE 算术 运算 


也 可 以 用 x86-SSE 来 做 标量 浮 点 算术 计算 ， 既 可 针对 单 精度 浮 点 数 ， 也 可 针对 双 精 度 
浮 点 数 。 图 7-7 演示 了 几 个 例子 。 值 得 注意 的 是 ， 当 进行 x86-SSE 标量 浮 点 计算 时 ， 处 理 器 
只 会 修改 目标 操作 数 的 低位 元 素 ， 高 位 元 素 不 受 影响 。x86-SSE 的 标量 浮 点 计算 能 力 经 常 被 
作为 替代 x87-FPU 的 一 种 现代 方法 。 改 用 新 技术 的 好 处 是 不 仅 获得 了 更 好 的 性 能 ， 还 有 可 
以 直接 寻 址 的 寄存 器 。 可 以 直接 寻 址 寄存 器 让 高 级 语言 的 编译 器 产生 更 高 效 的 机 器 码 ， 这 也 
大 大 降低 了 编写 做 标量 浮 点 运算 的 汇编 语言 函数 的 难度 。 


x86-SSE 标 量 单 精度 浮 点 加 法 


17.0 42.375 56.125 12.625 src 
" Li dee 200.875 3216.75 2000.0 des 


$5 20.875 3216.75 2012.625 des 


x86-SSE 标 量 双 精度 浮 点 乘法 


0 des 


图 7-7 针对 标量 浮 点 数 的 x86-SSE 算术 运算 


x86-SSE 还 支持 水 平 算术 计算 。 水 平 算术 计算 是 对 组 合 数据 类 型 的 相 邻 元 素 进行 计算 。 
图 7-8 演示 了 针对 单 精 度 浮 点 操作 数 的 水 平 加 法 和 双 精 度 浮 点 操作 数 的 水 平 减法 。x86-SSE 
还 支持 针对 组 合 字 和 组 合 双 字 的 整数 做 水 平 加 法 和 减法 。 水 平 运 算 经 常 被 用 来 把 组 合 数据 操 
作 数 中 包含 的 中 间 结 果 化 简 为 一 个 结果 。 


| 
2 








D Mn 


x86-SSE 单 精度 浮 点 水 平 加 法 




















x86-SSE 双 精度 浮 点 水 平 减法 








图 7-8 针对 单 精度 和 双 精 度 浮 点 数 的 x86-SSE 水 平 加 法 和 减法 


7.4 x86-SSE 指令 集 概览 
本 节 将 对 x86-SSE 指令 集 做 一 个 简单 浏览 ， 采 用 的 格式 与 本 书 中 对 其 他 指令 集 的 描述 
是 相同 的 。 我 们 把 x86-SSE 指令 集 划 分 为 如 下 这 些 组 : 
e 标量 浮 点 数据 传输 
e 标量 浮 点 算术 运算 
e 标量 浮 点 比较 
e 标量 浮 点 转换 
e 组 合 浮 点 数据 传输 
组 合 浮 点 算术 运算 
组 合 浮 点 比较 
组 合 浮 点 转换 
组 合 浮 点 重 排 (shuffle) 和 解 组 (unpack) 
组 合 浮 点 插入 和 提取 
组 合 浮 点 混合 
组 合 浮 点 逻辑 
组 合 整数 扩展 
组 合 整数 数据 传输 
组 合 整数 算术 运算 
组 合 整数 比较 
组 合 整数 转换 
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组 合 整数 重 排 (shuffle) 和 解 组 (unpack) 
组 合 整数 插入 和 提取 
组 合 整 数 混合 
组 合 整 数 移 位 
文本 字符 串 处 理 
非 临 时 数据 传输 和 缓存 控制 

e 其 他 

除非 特别 说 明 ，x86-SSE 指令 的 源 操作 数 既 可 以 是 XMM 寄存 器 ， 也 可 以 是 内 存 位 置 。 
位 于 内 存 中 的 组 合 128 位 宽 源 操作 数 必须 按 16 字 节 边界 对 齐 ， 但 那些 特别 声明 支持 非 对 齐 数 
据 传输 的 指令 除外 。 除 了 数据 传输 指令 外 ，x86-SSE 指令 的 目标 操作 数 必须 是 XMM 寄存 器 。 

应 用 程序 可 以 交替 使 用 x86-SSE 指令 和 MMX 指令 ， 这 对 于 代码 维护 和 项 目 移植 来 说 
是 有 利 的 。 使 用 MMX 指令 集 的 基于 x86-SSE 的 程序 在 使 用 x87 FPU 指令 前 需要 执行 emms 
指令 。 对 于 新 的 开发 项 目 来 说 不 鼓励 把 x86-SSE 指令 和 MMX 指令 交替 使 用 。 

在 下 面 的 指令 描述 中 ， 我 们 使 用 SPFP 和 DPFP 来 分 别 指 代 单 精度 浮 点 和 双 精 度 浮 点 。 
大 多 数 x86-SSE 浮 点 指令 助 记 符 用 两 个 字母 来 表示 操作 数 类 型 ， 包括 ps (组 合 SPFP) pd (组 
合 DPSP)、ss (标量 SPFP) 和 sd (标量 DPFP)。AMD 和 Intel (英特尔 ) 公司 的 参考 手册 里 
可 以 找到 关于 x86-SSE 指令 用 法 的 更 多 信息 ， 包 括 有 效 操作 数 和 可 能 的 异常 等 。 第 8 章 到 第 
11 章 的 示例 程序 也 包含 了 某 些 x86-SSE 指令 的 解释 。 


7.4.1 标量 浮 点 数据 传输 


标量 浮 点 数据 传输 组 的 指令 用 来 在 XMM 寄存 器 和 内 存单 元 之 间 传 输 标量 SPFP 和 
DPFP 值 ， 如 表 7-3 所 示 。 


表 7-3 x86-SSE 标量 浮 点 数据 传输 指令 










在 两 个 XMM 寄存 器 之 间或 者 内 存 位 置 和 XMM 寄存 器 之 间 复 
制 标 量 浮 点 数 






SSE/SSE2 


7.4.2 ”标量 浮 点 算术 运算 
标量 浮 点 算术 运算 组 的 指令 对 标量 操作 数 进行 基本 的 算术 运算 。 可 以 使 用 这 些 指 令 来 蔡 
代 x87 FPU 指令 或 者 一 起 使 用 。 对 于 这 组 的 所 有 指令 ， 源 操作 数 可 以 是 内 存 位 置 或 者 XMM 
寄存 器 ， 而 目标 操作 数 必须 是 XMM 寄存 器 。 表 7-4 归纳 了 标量 浮 点 算术 运算 指令 。 
表 7-4 x86-SSE 标量 浮 点 算术 运算 指令 
对 指定 操作 数 做 标量 加 法 


对 指定 操作 数 做 标量 减法 ， 源 操作 数 指定 减 数 ， 目 标 操作 数 指 
定 被 减 数 





addss 
addsd 








SSE/SSE2 









SSE/SSE2 


molss 
SSE/SSE2 





对 指定 操作 数 做 标量 乘法 


mulsd 
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( 续 ) 


mas [| O 5 X ë y 版 本 
divss 对 指定 操作 数 做 标量 除法 ， 源 操作 数 指定 除数 ， 目 标 操作 数 指 SSE/SSE2 
divsd 定 被 除数 


ES 计算 指定 源 操作 数 的 平方 根 SSE/SSE2 
sqrtsd 








iine 比较 源 操作 数 和 目标 操作 数 ， 并 把 较 大 的 值 保存 到 目标 操作 数 SSE/SSE2 
- 比较 源 操作 数 和 目标 操作 数 ， 并 把 较 小 的 值 保存 到 目标 操作 数 SSE/SSE2 





iier 使 用 立即 操作 数 指定 的 舍 人 方法 对 标量 浮 点 数 做 舍 人 SSE4.1 


rcpss 计算 指定 操作 数 的 近似 倒数 SSE 
rsqrtss 计算 指定 操作 数 的 近似 倒数 平方 根 SSE 


7.4.3 ”标量 浮 点 比较 
标量 浮 点 比较 组 的 指令 用 于 比较 两 个 标量 浮 点 数 ， 表 7-5 归纳 了 这 组 指令 的 用 法 。 
表 7-5 x86-SSE 标量 浮 点 比较 指令 






比较 两 个 标量 浮 点 值 ， 使 用 立即 操作 数 指定 比较 操作 符 。 比 较 
的 结果 被 保存 到 目标 操作 数 (所 有 1 KRE, MA 0 表示 假 ) 
对 两 个 标量 浮 点 数 做 有 序 比较 ,使 用 EFLAGS.ZF、EFLAGS.PF 
和 EFLAGS.CF 报告 结果 
对 两 个 标量 浮 点 数 做 无 序 比 较 ， 使 用 EFLAGS.ZF、EFLAGS.PF 
和 EFLAGS.CF 报告 结果 


SSE/SSE2 






comiss 






SSE/SSE2 









comisd 






ucomiss 










SSE/SSE2 






ucomisd 





7.4.4 ”标量 浮 点 转换 


标量 浮 点 转换 组 的 指令 用 来 把 标量 SPFP 值 转换 为 DPFP 值 ， 反 之 亦 然 ， 也 支持 转换 为 
双 字 整数 或 者 从 双 字 整数 转换 。 表 7-6 归纳 了 这 组 指令 的 用 法 。 


表 7-6 x86-SSE 标量 浮 点 转换 指令 
















把 带 符 号 双 字 整数 转换 为 浮 点 数 ， 源 操作 数 可 以 是 内 存 位 置 或 
者 通用 寄存 器 ， 目 标 操作 数 必须 是 XMM 寄存 器 
把 浮 点 数 转换 为 双 字 整数 ， 源 操作 数 可 以 是 内 存 位 置 或 者 XMM 
寄存 器 ， 目 标 操作 数 必须 是 通用 寄存 器 
使 用 截断 方法 把 浮 点 数 转换 为 双 字 整数 ， 源 操作 数 可 以 是 内 存 
位 置 或 者 XMM 寄存 器 ， 目 标 操作 数 必须 是 通用 寄存 器 
把 SPFP 值 转换 为 DPFP 值 ， 源 操作 数 可 以 是 内 存 位 置 或 者 
XMM 寄存 器 ， 目 标 操作 数 必须 是 XMM 寄存 器 
把 DPFP 值 转换 为 SPFP 值 ， 源 操作 数 可 以 是 内 存 位 置 或 者 
XMM 寄存 器 ， 目 标 操作 数 必须 是 XMM 寄存 器 


cvtsi2ss 





SSE/SSE2 






cvtsi2sd 










cvtss2si 
cvtsd2si 





SSE/SSE2 








cvttss2si 
cvttsd2si 






SSE/SSE2 
















cvtss2sd 







cvtsd2ss 
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7.4.5 ”组 合 浮 点 数据 传输 
组 合 浮 点 数据 传输 组 的 指令 用 来 在 XMM 寄存 器 和 内 存单 元 之 间或 者 两 个 XMM 寄存 器 
之 间 复 制 组 合 浮 点 数据 ， 表 7-7 归纳 了 这 一 组 指令 的 用 法 。 


表 7-7 x86-SSE 组 合 浮 点 数据 传输 指令 


cn NE: 








movaps 在 两 个 XMM 寄存 器 之 间或 者 内 存单 元 和 XMM 寄存 器 之 间 复 
SSE/SSE2 

movapd 制 组 合 SPFP/DPFP 值 
movups 在 两 个 XMM 寄存 器 之 间或 者 非 对 齐 内 存单 元 和 XMM 寄存 器 SSE/SSE2 
movupd 之 间 复 制 组 合 SPFP/DPFP 值 

| 把 一 个 组 合 SPFP/DPFP 值 的 低位 四 字 从 内 存 复制 到 XMM 寄 
— 存 器 ， 反之 亦 可 。 如 果 目 标 是 XMM 寄存 器 ， 那 么 高 位 的 四 字 不 SSE/SSE2 
movlpd 受 影响 
niis 把 一 个 组 合 SPFP/DPFP 值 的 高 位 四 字 从 内 存 复制 到 XMM 寄 
Sambia 存 器 ， 反 之 亦 可 。 如 果 目 标 是 XMM 寄存 器 ， 那 么 低位 的 四 字 不 SSE/SSE2 


受 影响 


EP 把 组 合 SPFP 源 操作 数 的 低位 四 字 复制 到 目标 操作 数 的 高 位 四 m 
p 字 ， 源 和 目标 操作 数 必须 都 是 XMM 寄存 器 

m 把 组 合 SPFP 源 操作 数 的 高 位 四 字 复 制 到 目标 操作 数 的 低位 四 des 

p 字 ， 源 和 目标 操作 数 必 须 都 是 XMM 寄存 器 


把 源 操 作 数 中 每 个 四 字 的 低位 SPFP 值 复制 到 目标 操作 数 的 相 











mosldup 同位 置 ， 再 把 目标 操作 数 中 每 个 四 字 的 低位 SPFP 值 复制 到 高 SSE3 
32 位 
VENCER 把 源 操 作 数 的 每 个 四 字 的 高 位 SPFP 值 复 制 到 目标 操作 数 的 相 — 
FT | 同位 置 。 每 个 目标 操作 数 四 字 的 高 位 SPFP 值 再 被 复制 到 低 32 位 
把 源 操作 数 的 低位 DPFP 值 复制 到 目标 操作 数 的 低位 四 字 和 高 
movddup pp SSE3 
位 四 字 
movmskps 提取 源 操作 数 中 每 个 组 合 SPFP/DPFP 数据 元 素 的 符号 位 ， 并 — 





movmskpd 将 其 保存 到 通用 寄存 器 的 低 二 进 制 位 。 高 位 被 置 为 0 


746 ”组合 浮 点 算术 运算 
组 合 浮 点 算术 运算 组 的 指令 可 以 对 组 合 单 精度 浮 点 操作 数 或 者 双 精 度 浮 点 操作 数 做 基本 
的 算术 运算 。 表 7-8 列 出 了 这 些 指令 。 


表 7-8 x86-SSE 组 合 浮 点 算术 运算 指令 







对 源 和 目标 操作 数 中 的 数据 元 素 做 组 合 浮 点 加 法 SSE/SSE2 







对 源 和 目标 操作 数 中 的 数据 元 素 做 组 合 
含 减 数 ， 目 标 操作 数 包含 被 减 数 


操作 数 中 的 数据 元 素 做 组 合 浮 点 乘法 


对 源 和 目标 操作 数 中 的 数据 元 素 做 组 合 
含 除 数 ， 目 标 操 作 数 包含 被 除数 


浮 点 减法 ， 源 操作 数 包 






SSE/SSE2 















SSE/SSE2 





SHA El 












浮 点 除法 ， 源 操作 数 包 








SSE/SSE2 
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(&) 

助 记 符 版 “本 

haha 计算 源 操作 数 中 的 组 合 浮 点 数据 元 素 的 平方 根 SSE/SSE2 

sqrtp 

— 比较 源 和 目标 操作 数 中 的 浮 点 数据 元 素 ， 把 较 大 的 值 保存 到 目 

maxpd 标 操 作 数 

minps _ 比 较 源 和 目标 操作 数 中 的 浮 点 数据 元 素 ， 把 较 小 的 值 保存 到 目 — 

minpd 标 操作 数 

rcpps 计算 每 个 浮 点 元 素 的 近似 倒数 SSE/SSE2 

rsqrtps 计算 每 个 浮 点 元 素 的 近似 倒数 平方 根 SSE 

NONE 对 奇数 编号 的 浮 点 元 素 做 加 法 ， 对 偶数 编号 的 浮 点 元 素 做 减法 SSE3 
194 addsubpd 

对 组 合 浮 点 元 素 做 条 件 乘法 ， 再 做 加 法 ， 这 条 指令 用 来 计算 点 积 SSE4.1 

roundps TENTIA bert M A "TP : " 

suada 使 用 立即 数 指定 的 伟人 模式 对 组 合 浮 点 数据 元 素 做 伟人 操作 SSE4.1 

ver 对 源 和 目标 操作 数 中 包含 的 相 邻 浮 点 数据 元 素 做 加 法 SSE3 

haddps iix T oe: 

lod 对 源 和 目标 操作 数 中 包含 的 相 邻 浮 点 数据 元 素 做 减法 SSE3 


7.4.7 合 浮 点 比较 
组 合 浮 点 比较 组 的 指令 用 于 对 组 合 浮 点 数 中 的 数据 元 素 做 比较 操作 ， 表 7-9 归纳 了 这 组 
指令 的 用 法 。 


表 7-9 x86-SSE 组 合 浮 点 比较 指令 


使 用 指定 的 立即 数 比较 运算 符 比 较 源 和 目标 操作 数 中 的 浮 点 数 


据 元 素 ， 比 较 的 结果 被 保存 到 目标 操作 数 (所 有 1 表示 真 ， 所 有 SSE/SSE2 
0 表示 假 ) 





7.4.8 ”组 合 浮 点 转换 


组 合 浮 点 转换 组 的 指令 可 以 把 组 合 浮 点 操作 数 的 数据 元 素 从 一 种 数据 类 型 转换 为 男 一 种 
[195] 数据 类 型 。 表 7-10 归纳 了 这 一 组 指令 的 用 法 。 


表 7-10 x86-SSE 组 合 浮 点 转换 指令 



















把 两 个 组 合 带 符号 双 字 整数 转换 为 两 个 组 合 浮 点 数 ， 源 操作 数 可 
以 是 内 存 位 置 或 者 MMX 寄存 器 ， 目 标 操 作 数 必 须 是 XMM 寄存 器 
把 两 个 组 合 浮 点 数 转换 为 两 个 组 合 带 符号 双 字 整 数 ， 源 操作 数 可 
以 是 内 存 位 置 或 者 XMM 寄存 器 ， 目 标 操作 数 必须 是 MMX 寄存 器 
使 用 截断 方法 把 两 个 组 合 浮 点 数 转换 为 两 个 带 符号 双 字 整数 ， 
源 操作 数 可 以 是 内 存 位 置 或 者 XMM 寄存 器 ， 目 标 操作 数 必须 是 
MMX 寄存 器 


cvtpi2ps 
BAD SSE/SSE2 





cvtpi2pd 
cvtps2pi 






SSE/SSE2 





cvtpd2pi 









cvttps2pi 






SSE/SSE2 





cvttpd2pi 
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(E) 


Wien CENE: 















cvtdq2ps 把 四 个 组 合 带 符号 双 字 整数 转换 为 四 个 组 合 单 精度 浮 点 数 SSE2 

cvtdq2pd 把 两 个 组 合 带 符号 双 字 整数 转换 为 两 个 组 合 双 精度 浮 点 数 SSE2 

cvtps2dq 把 四 个 组 合 单 精 度 浮 点 数 转换 为 四 个 带 符号 双 字 整数 SSE2 

es oe ee cami 
FI [We AK fe 

evtpd2dq 把 两 个 组 合 双 精 度 浮 点 数 转换 为 两 个 组 合 带 符号 双 字 整数 SSE2 

— 使 用 截断 作为 伟人 模式 把 两 个 组 合 双 精度 浮 点 数 转换 为 两 个 带 — 
符号 双 字 整数 

cvtps2pd 把 两 个 组 合 单 精 度 浮 点 数 转换 为 两 个 组 合 双 精度 浮 点 数 SSE2 

cvtpd2ps 把 两 个 组 合 双 精度 浮 点 数 转换 为 两 个 组 合 单 精度 浮 点 数 SSE2 





7.4.9 ”组 合 浮 点 重 排 和 人 解 组 


组 合 浮 点 重 排 和 解 组 组 的 指令 用 来 对 组 合 浮 点 操作 数 中 的 数据 元 素 重 新 排序 。 表 7-11 
列 出 了 这 一 组 的 指令 。 


表 7-11 x86-SSE 组 合 浮 点 重 排 和 解 组 指令 















把 源 和 目标 操作 数 中 的 指定 元 素 移动 到 目标 操作 数 ， 使 用 8 位 的 立 
即 数 操作 数 来 指定 要 移动 的 元 素 
解 组 (unpack) 并 交 铺 源 和 目标 操作 数 的 低位 元 素 ， 结 果 放 到 目标 操 
作 数 
解 组 (unpack) 并 交错 源 和 目标 操作 数 的 高 位 元 素 ， 结 果 放 到 目标 操 
作 数 







SSE/SSE2 





unpckl 
diia SSE/SSE2 






unpcklpd 















unpckhps SSE/SSE2 
unpckhpd 





7.4.10 组 合 浮 点 插入 和 提取 


组 合 浮 点 插入 和 提取 组 的 指令 可 以 向 组 合 单 精 度 浮 点 操作 数 插 人 元 素 或 者 从 中 提取 元 
素 。 表 7-12 归纳 了 这 组 的 指令 。 


表 7-12 x86-SSE 组 合 浮 点 插入 和 提取 指令 







从 源 操作 数 复制 出 一 个 SPFP 值 ， 并 搬入 到 目标 操作 数 。 源 操作 数 
可 以 是 内 存 位 置 或 者 XMM 寄存 器 ， 目 标 操作 数 必 须 是 XMM 寄存 器 。 
目标 操作 数 元 素 是 通过 立即 数 操作 数 指定 的 
从 源 操作 数 中 提取 出 一 个 SPFP 元 素 ， 并 把 它 复制 到 目标 操作 数 ， 
源 操 作 数 必须 是 KMM 寄存 器 ， 目 标 操作 数 可 以 是 内 存 位 置 或 者 通用 
寄存 器 。 要 提取 元 素 的 位 置 是 通过 立即 数 操作 数 指定 的 








insertps 










extractps SSE4.1 






7.4.11 合 浮 点 混合 


A 
组 合 浮 点 混合 组 的 指令 用 来 对 组 合 浮 点 数据 做 条 件 复制 或 者 融合 (merge), X 7-13 列 
出 了 这 一 组 的 指令 。 
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表 7-13 -x86-SSE 组 合 浮 点 混合 指令 














blendps 从 源 和 目标 操作 数 中 按 条 件 复制 浮 点 元 素 到 目标 操作 数 ， 使 用 立即 
blendpd 数 操作 数 来 指定 要 复制 的 特定 元 素 
blendvps 从 源 和 目标 操作 数 中 按 条 件 复制 浮 点 元 素 到 目标 操作 数 ， 使 用 
blendvpd XMM0 中 的 掩 码 值 指定 要 复制 的 特定 元 素 







SSE4.1 





7.4.12 ”组合 浮 点 逻辑 
组 合 浮 点 逻辑 组 的 指令 用 来 对 组 合 浮 点 操作 数 做 按 位 逻辑 运算 ， 表 7-14 列 出 了 这 一 组 


表 7-14 x86-SSE 组 合 浮 点 逻辑 指令 







naps 对 指定 组 合 浮 点 操作 数 中 的 数据 元 素 做 按 位 逻辑 与 (AND) 


对 目标 操作 数 做 按 位 逻辑 取 反 (NOT)， 然 后 把 源 和 目标 操作 数 做 
逻辑 与 (AND) 


ae 对 指定 组 合 浮 点 操作 数 中 的 数据 元 素 做 按 位 逻辑 或 (OR) SSE/SSE2 


SSE/SSE2 





andpd 










andnps 











SSE/SSE2 
andnpd 


XOrps 


对 指定 组 合 浮 点 操作 数 中 的 数据 元 素 做 按 位 逻辑 异 或 SSE/SSE2 


7.4.13 ”组合 整数 扩展 


SSE2 从 两 个 方面 对 x86 平 台 的 组 合 整数 处 理 能 力 做 了 扩展 。 首 先 ， 所 有 MMX 技术 中 
定义 的 组 合 整 数 指令 (pshufw 除外 ) 都 可 以 使 用 XMM 寄存 器 和 128 位 宽 的 内 存单 元 作 操作 
数 。 其 次 ，SSE2 和 后 续 的 x86 SIMD 扩展 包含 了 很 多 新 的 组 合 整数 指令 ， 它 们 要 求 至 少 一 
个 操作 数 是 XMM 寄存 器 或 者 128 位 宽 的 内 存单 元 。 下 面 几 节 将 概述 这 些 指令 。 


7.4.14 ”组 合 整数 数据 传输 


组 合 整数 数据 传输 组 的 指令 用 来 在 XMM 寄存 器 和 内 存单 元 或 者 两 个 XMM 寄存 器 之 间 
移动 组 合 整 数 。 这 一 组 也 包含 了 用 以 在 XMM 寄存 器 和 MMX 寄存 器 之 间 执 行 数 据 移动 的 指 
令 。 表 7-15 列 出 了 这 一 组 的 指令 。 


表 7-15 x86-SSE 组 合 整数 数据 传输 指令 










把 符合 内 存 对 齐 规则 的 两 个 四 字 从 内 存 复 制 到 XMM 寄存 器 ， 反 之 
亦 可 。 这 条 指令 也 可 以 执行 XMM 寄存 器 之 间 的 传输 
把 不 符合 内 存 对 齐 规则 的 两 个 四 字 从 内 存 复制 到 XMM 寄存 器 ， 反 
之 亦 可 
把 MMX 寄存 器 的 内 容 复制 到 XMM 寄存 器 的 低位 四 字 。 这 条 指令 
会 导致 从 x87 FPU 到 MMX 模式 的 切换 
把 XMM 寄存 器 的 低位 四 字 复 制 到 MMX 寄存 器 。 这 条 指令 会 导致 
从 x87 FPU 到 MMX 模式 的 切换 












movdqu 







movq2dq 












movdq2q 






并 RSIMDJR 9 


7.4.15 ”组 合 整数 算术 运 
组 合 整数 算术 运算 组 的 指令 用 来 对 组 合 整数 操作 数 做 算术 运算 ， 表 7-16 描述 这 一 组 的 


指令 。 


表 7-16 x86-SSE 组 合 整数 算术 运算 指令 


在 源 和 目标 操作 数 之 间 做 组 合 带 符号 乘法 ， 每 个 乘积 的 低位 


SSE4.1 

peu 双 字 被 保存 到 目标 操作 数 

把 源 和 目标 操作 数 的 第 一 个 和 第 三 个 带 符号 双 字 做 乘法 ， 四 
pmuldq 7 SSE4.1 

字 乘 积 被 保存 到 目标 操作 数 
pminub 比较 两 个 组 合 无 符号 整数 ， 并 把 较 小 的 数据 元 素 保 存 到 目标 
pminuw 操作 数 。 源 操作 数 可 以 是 内 存 位 置 或 者 寄存 器 ， 目 标 操作 数 必 | SSE2 (pminub) SSE4.1 
pminud 须 是 寄存 器 
pminsb 比较 两 个 组 合 带 符号 整数 ， 并 把 较 小 的 数据 元 素 保存 到 目标 
pminsw 操作 数 。 源 操作 数 可 以 是 内 存 位 置 或 者 寄存 器 ， 目 标 操作 数 必 | SSE2 (pminsw) SSE4.1 
pminsd 须 是 寄存 器 
pmaxub 比较 两 个 组 合 无 符号 整数 ， 并 把 较 大 的 数据 元 素 保存 到 目标 


pmaxuw 操作 数 。 源 操作 数 可 以 是 内 存 位 置 或 者 寄存 器 ， 目 标 操作 数 必 | SSE2 (pmaxub) SSE4.1 
pmaxud 须 是 寄存 器 

pmaxsb 比较 两 个 组 合 带 符号 整数 ， 并 把 较 大 的 数据 元 素 保存 到 目标 

pmaxsw 操作 数 。 源 操作 数 可 以 是 内 存 位 置 或 者 寄存 器 ， 目 标 操作 数 必 | SSE2 (pmaxsw) SSE4.1 
pmaxsd 须 是 寄存 器 





7.4.16 组 合 整 数 比 较 
组 合 整数 比较 组 的 指令 用 来 对 两 个 组 合 整 数 做 比较 ， 表 7-17 归纳 了 这 组 指令 的 用 法 。 


表 7-17 x86-SSE 组 合 整数 比较 指令 









b 
iain 一 个 元 素 一 个 元 素 地 比较 两 个 组 合 整数 是 否 相等 。 如 果 源 和 


目标 数据 元 素 相 等 ， 那 么 就 把 目标 操作 数 的 对 应 元 素 设置 为 全 
1， 否 者 设置 为 全 0 






SSE2 
SSE4.1 (pcmpeqq) 


pcmpeqw 






pempeqd 
pempeqq 







pempgtb 






一 个 元 素 一 个 元 素 地 比较 两 个 组 合 带 符号 整数 ， 寻 找 较 大 






SSE2 









的 。 如 果 目 标 元 素 较 大 ， 那 么 就 把 目标 操作 数 的 对 应 元 素 设置 S 
abis 为 全 1， 否 者 设置 为 全 0 S SEHR 
pempgtq 






7.4.17 组合 整数 转换 


组 合 整数 数据 转换 组 的 指令 可 以 把 组 合 整数 从 一 种 类 型 转换 到 另 一 种 类 型 。 这 组 指令 包 
含 多 种 变 体 ， 既 有 符号 扩展 ， 又 有 0 扩展 。 表 7-18 列 出 了 这 一 组 的 指令 。 
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Xx 7-18 x86-SSE 组 合 整数 转换 指令 



















使 用 无 符号 饱和 算法 把 源 操作 数 和 目标 操作 数 中 的 n 个 组 合 无 符号 整数 转 
换 为 2*n 个 组 合 无 符号 整数 


对 源 操作 数 的 低位 带 符号 字 节 ( signed-byte) 整数 做 符号 扩展 ， 并 把 这 些 
值 复制 到 目标 操作 数 


对 源 操作 数 的 低位 带 符号 字 Csigned-word) 整数 做 符号 扩展 ， 并 把 这 些 值 
复制 到 目标 操作 数 
对 源 操作 数 的 低位 带 符号 双 字 (signed doubleword) 整数 做 符号 扩展 ， 并 
把 得 到 的 四 字 值 复制 到 目标 操作 数 


对 源 操作 数 的 低位 无 符号 字 节 (unsigned-byte) 整数 做 0 扩展 ， 并 把 这 些 
值 复 制 到 目标 操作 数 


对 源 操 作 数 的 低位 无 符号 字 ( unsigned-word) 整数 做 0 扩展 ， 并 把 这 些 值 
复制 到 目标 操作 数 
对 源 操 作 数 的 两 个 低位 无 符号 双 字 (unsigned doubleword) 整数 做 0 扩展 ， 
并 把 得 到 的 四 字 值 复制 到 目标 操作 数 


SSE2 (packuswb) 
SSE4.1(packusdw) 


packuswb 





packusdw 


pmovsxbw 










pmovsxbd SSE4.1 





pmovsxbq 













d 
es SSE4.1 





pmovsxwq 






pmovsxdq SSE4.1 






pmovzxbw 






pmovzxbd SSE4.1 






pmovzxbq 














pmovzxwd 
SSE4.1 





pmovzxwq 











pmovzxdq SSE4.1 






7.4.18 ”组合 整数 重 排 和 解 组 


组 合 整数 重 排 和 解 组 的 指令 对 组 合 整数 数据 做 重新 排序 和 解 组 操作 。 对 于 这 一 组 的 所 
有 指令 ， 源 操作 数 可 以 是 XMM 寄存 器 或 者 内 存 位 置 ， 目 标 操作 数 必须 是 XMM 寄存 器 。 
表 7-19 列 出 了 这 一 组 的 指令 。 


表 7-19 x86-SSE 组 合 整数 重 排 和 解 组 指令 











使 用 立即 数 操作 数 指定 的 排序 模式 把 源 操作 数 的 双 字 复 制 到 目标 操作 数 
使 用 立即 数 操作 数 指定 的 排序 模式 把 源 操作 数 的 低位 字 复 制 到 目标 操作 数 
的 低位 字 

使 用 立即 数 操作 数 指定 的 排序 模式 把 源 操作 数 的 高 位 字 复制 到 目标 操作 数 
的 高 位 字 
把 源 操作 数 的 低位 四 字 复 制 到 目标 操作 数 的 高 位 四 字 。 目 标 操作 数 的 低位 
四 字 保持 不 变 
把 源 操作 数 的 高 位 四 字 复 制 到 目标 操作 数 的 高 位 四 字 。 它 还 把 目标 操作 数 
的 高 位 四 字 复制 到 目标 操作 数 的 低位 四 字 











pshufhw 











punpcklqdq 














punpckhqdq 






7.4.19 组 合 整数 插入 和 提取 


组 合 整 数 插入 和 提取 组 包括 字 节 、 字 、 双 字 和 四 字 插 入 和 提取 指令 。 可 以 用 这 些 指 令 把 
通用 寄存 器 中 的 低位 值 复制 到 XMM 寄存 器 ， 反 之 亦 可 。 表 7-20 列 出 了 这 一 组 的 指令 。 





R 7-20 x86-SSE 组 合 整数 插入 和 提取 指令 









把 一 个 整数 从 源 操 作 数 复制 到 目标 操作 数 。 这 个 整数 在 目标 操作 数 中 的 位 
曾 是 由 立即 数 操作 数 指定 的 。 源 操作 数 可 以 是 内 存 位 置 或 者 通用 寄存 器 。 目 
标 操 作 数 必须 是 XMM 寄存 器 






pinsrb 





SSE2 (pinsrw) 
SSE4.1 





pinsrw 









pinsrd 
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CH) 













把 一 个 整数 从 源 操作 数 复制 到 目标 操作 数 。 这 个 整数 在 源 操 作 数 中 的 位 置 
是 由 立即 数 操作 数 指定 的 。 源 操作 数 必须 是 KMM 寄存 器 ， 目 标 操作 数 可 以 
是 内 存 位 置 或 者 通用 寄存 器 


pextrb 





SSE2 (pintrw) 
SSE4.1 





pextrw 






pextrd 


7.4.00 组 合 整数 混合 


组 合 整数 混合 组 的 指令 用 来 对 组 合 整数 进行 条 件 复 制 或 者 融合 ， 表 7-21 列 出 了 这 一 组 
的 指令 。 


表 7-21 x86-SSE 组 合 整 数 混合 指令 










从 源 和 目标 操作 数 中 按 条 件 复 制 字 (word) 值 到 目标 操作 数 ， 使 用 立即 数 
掩 码 值 来 指定 要 复制 的 特定 字 值 
从 源 和 目标 操作 数 中 按 条 件 复制 字 节 值 到 目标 操作 数 ， 使 用 寄存 器 
XMMO 中 的 掩 码 值 指 定 要 复制 的 特定 字 节 值 






pblendw 












pblendvb 





7.4.21 组 合 整数 移 位 


组 合 整 数 移 位 组 的 指令 用 来 对 XMM 寄存 器 中 的 数值 进行 面向 字 节 的 逻辑 移 位 。 表 7-22 
描述 了 这 一 组 的 指令 。 


表 7-22 x86-SSE 组 合 整数 移 位 指令 


对 XMM 寄存 器 中 的 组 合 整数 值 做 面向 字 节 的 左 移 ， 用 0 填充 低位 字 节 。 


移动 的 位 数 是 由 立即 数 操作 数 来 指定 的 


对 XMM 寄存 器 中 的 组 合 整数 值 做 面向 字 节 的 右 移 ， 用 0 填充 高 位 字 节 。 
移动 的 位 数 是 由 立即 数 操作 数 来 指定 的 





7.4.22 文本 字符 串 处 理 


文本 字符 串 处 理 组 的 指令 用 来 对 显 式 长 度 或 者 隐 式 长 度 的 字符 串 做 串 操 作 。 所 谓 显 式 长 
度 文本 字符 串 ， 就 是 预先 知道 其 长 度 的 文本 字符 串 ， 而 隐 式 长 度 文本 字符 串 的 长 度 必须 通过 
搜索 结束 字符 来 决定 。 这 一 组 的 指令 可 以 做 SIMD 文本 字符 串 比较 或 者 长 度 计算 ,也 可 以 使 
用 它们 来 优化 文本 字符 串 搜索 和 替换 算法 。 表 7-23 归纳 了 文本 字符 串 处 理 指令 。 


# 7-23 x86-SSE 文本 字符 串 处 理 指令 
对 两 个 显 式 长 度 的 文本 字符 串 做 组 合 比较 ， 在 XMMO 中 返回 掩 码 结果 
对 两 个 隐 式 长 度 的 文本 字符 串 做 组 合 比较 ， 在 ECX 中 返回 索引 结 
对 两 个 隐 式 长 度 的 文本 字符 串 做 组 合 比 较 ， 在 XMMO 中 返回 掩 码 结果 




















pcmpestri 


pcmpestrm 






pempistri 


pempistrm 
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7.4.23” 非 临时 数据 传输 和 缓存 控制 


非 临 时 数据 传输 和 缓存 控制 组 的 指令 可 以 执行 非 临时 内 存 存储 、 高 速 缓存 预 取 ( pre- 
fetching) 及 冲洗 以 及 内 存 加 载 和 存储 设 卡 〈fencing)。 非 临时 内 存 存储 通知 处 理 器 可 以 把 要 
写 的 数据 直接 写 到 内 存 中 ， 而 不 要 存储 到 处 理 器 的 高 速 缓存 。 对 于 某 些 应 用 (比如 语音 和 视 
频 编码 )， 这 么 做 可 以 提高 高 速 缓存 的 效率 ， 因 为 这 样 消除 了 高 速 缓存 杂 波 。 高 速 缓 存 预 取 
指令 通知 处 理 器 加 载 一 条 缓存 数据 线 到 指定 级 别 的 缓存 供 将 来 使 用 。 内 存 设 卡 ( fence) 指令 
把 所 有 悬而未决 的 内 存 加 载 和 存储 操作 序列 化 ， 这 可 以 提高 针对 多 处 理 器 设计 的 “生产 者 - 
消费 者 ”算法 的 性 能 。 

值得 说 明 的 是 ， 非 临时 内 存 存储 、 高 速 缓存 预 取 和 内 存 设 卡 都 是 给 处 理 器 的 暗示 
(hint); 处 理 器 可 以 选择 利用 这 些 暗示 ， 也 可 以 选择 忽略 这 些 暗示 。 另 外 值得 注意 的 是 ,使 
用 这 些 暗 示 并 不 影响 处 理 器 的 程序 执行 状态 ， 包 括 寄 存 器 和 状态 标志 。 没 有 必要 也 不 可 能 编 
写 额 外 代码 来 断定 处 理 器 是 否 接受 了 某 个 暗示 。 表 7-24 列 出 了 非 临时 数据 传输 和 缓存 控制 

指令 s 


X 7-24 x86-SSE 非 临时 数据 传输 和 缓存 控制 指令 






movnti 使 用 非 临时 暗示 把 通用 寄存 器 的 内 容 复 制 到 内 存 
movntdq 使 用 非 临时 暗示 把 XMM 寄存 器 的 内 容 复制 到 内 存 
使 用 非 临时 暗示 把 XMM 寄存 器 的 字 节 有 条 件 地 复制 到 内 存 。 包 含 在 第 二 个 
XMM 寄存 器 中 的 掩 码 值 指定 要 复制 的 字 节 。EDI 寄存 器 指向 目标 内 存 的 位 置 
movntdqa 使 用 非 临 时 暗示 把 基于 内 存 的 双 四 字 加 载 到 XMM 寄存 天 
序列 化 以 前 发 出 的 所 有 内 存 存储 操作 
给 处 理 器 发 出 暗示， 可 以 从 主 内 存 加 载 数据 到 高 速 缓存 。 源 操作 数 指定 主 内 
存 的 位 置 。 其 中 的 互 是 占 位 符 ， 用 来 指定 高 速 缓存 暗示 的 类 型 ， 有 效 的 选项 有 
TO (临时 数据 ， 所 有 级 别 的 高 速 缓存 )、T1 (临时 数据 ，L1 高 速 缓存 )、T2( 临 
时 数据 ，L2 高 速 缓存 ) RA NTA (对 齐 的 非 临 时 数据 ， 所 有 级 别 的 高 速 缓存 ) 
冲刷 一 个 高 速 缓存 线 ， 使 其 无 效 。 源 操作 数 指定 高 速 缓存 线 的 内 存 位 置 
















maskmovdqu 








sfence SSE 





mfence SSE2 








prefetchH SSE 







7.4.24 其 他 


其 他 组 包含 的 指令 用 来 操纵 x86-SSE 的 控制 - 状态 寄存 器 MXCSR， 还 有 几 个 针对 特定 
算法 的 加 速 指令 。 表 7-25 列 出 了 这 些 指 令 。 


表 7-25 x86-SSE 其 他 指令 












从 内 存 加 载 x86-SSE 控制 - 状态 寄存 器 MXCSR 
把 x86-SSE 控制 - 状态 寄存 器 MXCSR 保存 到 内 存 
把 当前 的 x87 FPU, MMX 技术 、XMM 和 MXCSR 的 状态 保存 到 内 存 
计 这 条 指令 的 目的 是 支持 操作 系统 的 任务 切换 ， 但 应 用 程序 也 可 以 使 用 它 

从 内 存 加 载 x87 FPU, MMX 技术 、XMM 和 MXCSR 的 状态 。 设 计 这 条 指 
令 的 目的 是 支持 操作 系统 的 任务 切换 ， 但 应 用 程序 也 可 以 使 用 它 





Idmxesr 














stmxcsr 






fxsave 设 SSE 






fxrstor 
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加 速 计 算 32 位 循环 元 余 检 查 ( CRC)。 源 操作 数 可 以 是 内 存 位 置 或 者 通用 寄 
存 器 。 目 标 操作 数 必须 是 32 位 通用 寄存 器 ， 并 包含 前 一 个 中 间 结 果 。 用 于 计 
算 CRC 的 多 项 式 (polynomial) 是 0x11EDC6F41 

计数 ( count) 源 操作 数 中 设置 为 1 的 二 进 制 位 数 。 源 操作 数 可 以 是 内 存 位 置 
或 者 通用 寄存 器 ， 目 标 操 作 数 必 须 是 通用 寄存 器 















popcnt 






7.5 总 结 


本 章 介 绍 了 x886-SSE 的 基础 知识 ， 包 括 寄存 器 集 、 支 持 的 组 合 和 标量 数据 类 型 以 及 基 
本 的 处 理 技术 。 我 们 还 浏览 了 x86-SSE 的 指令 集 ， 目 的 是 对 x86-SSE 的 计算 能 力 获得 比较 
全 面 的 理解 。x86-SSE 执行 环境 的 广泛 数据 类 型 和 指令 集 使 它 成 为 一 种 非常 强大 的 编程 工具 ， 
广泛 适用 于 很 多 类 算法 问题 。 在 接 下 来 的 四 章 中 ， 你 将 把 本 章 学 到 的 x86-SSE 知识 投入 应 
用 ， 去 分 析 各 类 阐释 本 章 材料 的 示例 程序 。 
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x86-SSE 编程 一 一 标量 浮 点 





在 前 面 的 章节 里 我 们 探索 了 x86-SSE 的 计算 资源 ， 包 括 数 据 类 型 和 指令 集 。 在 本 章 ， 
我 们 将 学 习 如 何 使 用 x86-SSE 指令 集 对 标量 浮 点 进行 算术 运算 。 本 章 内 容 分 为 两 节 : 8.1 节 
演示 基本 的 x86-SSE 标量 浮 点 运算 ,包括 简单 的 算术 计算 、 比 较 和 类 型 转换 ; 8.2 节 通 过 一 
组 示例 程序 来 演示 高 级 的 x86-SSE 标量 浮 点 技术 。 

本 章 所 有 的 示例 程序 都 需要 在 支持 SSE2 的 处 理 器 上 运行 (包括 几乎 所 有 2003 年 以 后 
面世 的 AMD 和 Intel 处 理 器 )。 在 本 章 及 后 续 的 x86-SSE 相关 的 章节 里 ， 在 每 个 汇编 语言 源 
代码 的 头 部 都 有 说 明 运行 该 程序 所 需 SSE 的 最 低 版 本 。 附 录 C 列 出 了 一 些 免费 工具 ， 这 些 
工具 可 以 帮助 你 检测 你 的 PC 机 中 处 理 器 和 操作 系统 所 能 支持 的 x86-SSE 版 本 。 


8.1 标量 浮 点 运算 基础 

x86-SSE 的 标量 浮 点 处 理 能 力 给 程序 员 提 供 了 替代 x87 FPU 的 一 种 更 好 选择 。x86-SSE 
直接 访问 XMM 寄存 器 的 能 力 意味 着 可 以 更 加 容易 地 进行 基本 的 标量 浮 点 运算 ， 浮 点 型 的 加 
减 乘除 运算 变 得 跟 使 用 通用 寄存 器 进行 整数 算术 运算 十 分 相似 。 每 条 指令 需要 一 个 源 和 目标 
操作 数 ， 运 算 的 方式 都 是 des = des x src (其 中 雪 代 表 一 种 具体 的 运算 )。 由 于 我 们 不 用 担 
心 寄存 器 栈 的 状态 ， 所 以 程序 的 可 读 性 得 到 了 明显 的 改进 ， 本 章 的 示例 程序 展示 了 这 一 点 。 


8.1.1 标量 浮 点 算术 运算 


大 家 看 到 的 第 一 个 x86-SSE 标量 浮 点 示例 程序 是 SseScalarFloatingPointArithmetic。 这 
个 程序 展示 了 如 何 使 用 x86-SSE 标量 浮 点 指令 集 进行 基本 的 算术 运算 ， 包 括 单 精度 和 双 精 度 
数值 的 运算 。 清 单 8-1 和 清单 8-2 分 别 给 出 了 相应 的 C++ 和 x86-32 汇编 语言 源 代 码 。 


清单 8-1 SseScalarFloatingPointArithmetic.cpp 


#include "stdafx.h" 
#define USE MATH DEFINES 
#include «math.h» 


extern "C" void SseSfpArithmeticFloat (float a, float b, float c[8]); 
extern "C" void SseSfpArithmeticDouble (double a, double b, double c[8]); 


void SseSpfArithmeticFloat(void) 
float a = 2.5f; 
float b - -7.625f; 
float c[8]; 


SseSfpArithmeticFloat (a, b, c); 
printf("\nResults for SseSfpArithmeticFloat ()in"); 


printf(" a: %.6f\n", a); 
printf(" b: %.6f\n", b); 
printf(" add: %.6f\n", c[0]); 


printf(" sub: %.6f\n", c[1]); 


x86-SSE RRE — 1 3 2f. E 


printf(" mul: 4.6f^n", 
printf(" div: %.6f\n", 
printf(" min: 4$.6f Nn", 
printf(" max: %.6f\n", 
printf(" fabs(b): 4. 6f Nn", 


printf(" sqrt(fabs(b)): %.6f\n", 
) 


void SseSpfArithmeticDouble(void) 
{ 

double a = M PI; 

double b - M E; 

double c[8]; 


Ww ow 


SseSfpArithmeticDouble (a, b, c); 


c[2]); 
c[3]); 
c[4]); 
c[5]); 
c[6]); 
c[7]); 
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printf("\nResults for SseSfpArithmeticDouble_()\n"); 


printf(" a: %.14f\n", 
printf(" b: 4.14f ^n", 
printf(" add: 4.14f^n", 
printf(" sub: %.14f\n", 
printf(" mul: %.14f\n", 
printf(" div: %.14f\n", 
printf(" min: %.14f\n", 
printf(" max: 4.14fWn", 
printf(" fabs(b): %.14f\n", 


printf(" sqrt(fabs(b)): %.14f\n", 


int tmain(int argc, _TCHAR* argv[]) 


SseSpfArithmeticFloat(); 
SseSpfArithmeticDouble(); 


a); 

b); 

c[0]); 
c[1]); 
c[2]); 
c[3]); 
c[4]); 
c[5]); 
c[6]); 
c[7]); 


清单 8-2 SseScalarFloatingPointArithmetic_.asm 


.model flat,c 
.Const 


; 浮 点 绝对 值 的 掩 码 值 ，16 位 对 齐 


AbsMaskFloat ^— dword 7fffffffh,Offffffffh,Offffffffh,Offffffffh 
AbsMaskDouble  qword 7fffffffffffffffhyOffffffFffFfffffffh 


.code 


; extern "C" void SseSfpArithmeticFloat (float a, float b, float c[8]) 


; 函数 说 明 : 本 函数 展示 了 使 用 标量 单 精度 浮 点 值 的 基本 的 算术 运算 


; SSE 版 本 : SSE 


SseSfpArithmeticFloat proc 
push ebp 
mov ebp,esp 


; 载 入 参数 值 
movss xmm0,real4 ptr [ebp+8] 
movss xmm1,real4 ptr [ebp+12] 
mov eax, [ebp+16] 


进行 单 精 度 算术 运算 


movss xmm2,xmmO 
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addss 
movss 


movss 
subss 
movss 


movss 
mulss 
movss 


movss 
divss 
movss 


movss 
minss 
movss 


movss 
maxss 
movss 


andps 
movss 


xmm2 , xmm1 
real4 ptr [eax],xmm2 


xmm3 , xmmO 
xmm3 , xmm1 
real4 ptr [eax+4] ,xmm3 


xmm4 , xmmO 
xmm4 , xmm1 
real4 ptr [eax«8],xmm4 


xmm5 , xmmO 
xmm5 , xmm1 
real4 ptr [eax+12],xmm5 


xmm6 , xmmO 
xmm6 , xmm1 
real4 ptr [eax+16] ,xmm6 


xmm7 , xmmO 
xmm7 , xmm1 
real4 ptr [eax+20] ,xmm7 


xmm1 , [AbsMaskFloat] 
real4 ptr [eax«24],xmmi 


Sqrtss xmmO,xmmi 


movss 


real4 ptr [eax«28], xmmo 


pop ebp 


ret 


SseSfpArithmeticFloat endp 


;xmm2 =a +b 


;xmm3 =a - b 


;xmm4 = a * b 


;xmm5 =a / b 


;xmm6 = min(a, b) 


;xmm7 = max(a, b) 


;xmm1 = fabs(b) 


;xmmo = sqrt(fabs(b)) 


; extern "C" void SseSfpArithmeticDouble (double a, double b, double c[8]) 


Jj 


; 函数 说 明 : 下 面 的 函数 演示 如 何 对 标量 双 精度 浮 点 数 进行 基本 的 算术 运算 


2 


j SSE 版 本 : SSE2 


SseSfpArithmeticDouble proc 
push ebp 
mov ebp,esp 


; 载 入 参数 值 
movsd 
movsd 


xmmO,Teal8 ptr [ebp+8] 
xmm1,real8 ptr [ebp+16] 


mov eax, [ebp+24] 


; 进行 双 精 度 算 术 运 算 


movsd 
addsd 
movsd 


movsd 
subsd 
movsd 


movsd 
mulsd 
movsd 


movsd 


xmm2 , xmmO 
xmm2 , Xmm1 
real8 ptr [eax],xmm2 


xmm3 , xmmO 
xmm3 , xmm1 
real8 ptr [eax48],xmm3 


xmm4 , XmmO 
xmm4 , xmm1 


real8 ptr [eax416],xmm4 


xmm5 , xmmo 


;xmmo = 
;xmm1 = 
;eax = c 


oo 


;xmm2 = a + b 


;xmm3 =a - b 


;xmm4 = a * b 


R 


b 


x86-SSE 4¢42—_ he FF 147 


divsd xmm5,xmmi ;xmm5 = a / b 
movsd real8 ptr [eax+24],xmm5 


movsd xmm6, xmmO 
minsd xmm6, xmm1 ;xmm6 = min(a, b) 
movsd real8 ptr [eax+32],xmm6 


movsd xmm7,xmmO 
maxsd xmm7,xmm1 ;xmm7 = max(a, b) 
movsd real8 ptr [eax+40] ,xmm7 


andpd xmmi, [AbsMaskDouble] ;xmm1 = fabs(b) 
movsd real8 ptr [eax«48],xmmi 


sqrtsd xmmO,xmm1 ;xmm0 = sqrt(fabs(b)) 
movsd real8 ptr [eax«56],xmmo 
pop ebp 

t 


SseSfpArithmeticDouble  endp 
end 


示例 程序 SseScalarFloatingPointArithmetic 的 C++ WARE ( 见 清单 8-1) 包含 一 个 Sse- 
SfpArithmeticFloat 函数 。 这 个 函数 初始 化 一 组 单 精度 浮 点 变量 ， 然 后 调用 一 个 x86 汇编 语 
言 函 数 进行 一 系列 基本 的 浮 点 算术 运算 。 这 个 汇编 语言 函数 把 各 个 算术 运算 的 结果 保存 在 调 
用 者 提供 的 数组 里 ， 然 后 把 这 些 结果 打印 出 来 。 与 之 类 似 ，SseSfpArithmeticDouble Ph Rit 
行 同样 的 操作 ,不同 的 是 它 操作 的 是 双 精 度数 。 

汇编 语言 文件 SseScalarFloatingPointArithmetic .asm ( 见 清单 8-2) 包含 一 个 SseSfp- 
ArithmeticFloat 函数。 这 个 函数 演示 了 x86-SSE 标量 单 精度 浮 点 指令 的 使 用 方法 。 在 函数 
序言 之 后 ， 指 令 movss xmm0, real4 ptr [ebp+8] ( Move Scalar Single-Precision Floating-Point 
Value， 移 动 标量 单 精度 浮 点 值 ) 把 参数 值 a 拷贝 到 寄存 器 XMMO 的 低 32 位 ， 而 XMMO 的 
高 32 位 并 不 会 被 该 指令 修改 。 这 个 函数 使 用 另 一 个 movss 指令 把 参数 b 拷贝 到 XMM1。 然 
后 把 结果 数组 的 指针 载 人 到 EAX 寄存 器 。 

寄存 器 初始 化 之 后 的 代码 块 展示 了 标量 单 精度 浮 点 算术 运算 指令 的 使 用 方法 ， 这 部 分 
代码 相当 简单 明了 ,不 多 做 解释 。 需 要 注意 的 是 ， 与 x87-FPU 不 同 ，x86-SSE 没有 标量 浮 
点 绝对 值 (fabs) 指令 。 标 量 单 精度 浮 点 绝对 值 可 以 很 容易 地 通过 andps (组 合 单 精度 浮 点 值 
按 位 逻辑 与 ) 指令 计算 出 来 (使 用 andps 清除 掉 符 号 位 即 可 )。 此 外 ， 所 有 的 x86-SSE 标量 
单 精 度 浮 点 算术 运算 指令 只 修改 目标 XMM 寄存 器 的 低 32 位 ， 而 高 32 位 不 会 被 改变 。 注 
意 andps 指令 是 一 个 组 合 指令 ， 该 指令 不 仅 修改 低 32 位 ， 同 时 也 会 修改 目标 操作 数 的 高 32 
位 。 通 过 movss 指令 ， 每 一 算术 运算 指令 的 结果 被 保存 在 调用 者 提供 的 数组 里 。 建 议 大 家 在 
调用 movss 时 将 操作 数 在 内 存 中 正确 对 齐 。 虽 然 操 作 数 对 齐 与 否 不 影响 运算 的 结果 ， 但 是 不 
好 的 数据 对 齐 会 影响 实际 的 运算 性 能 。 

SseSfpArithmeticDouble . 函数 展示 了 x86-SSE 标量 双 精 度 浮 点 运算 指令 的 使 用 方法 。 
该 函数 的 逻辑 组 织 与 SseSfpArithmeticFloat 完全 一 致 。 在 使 用 XMM 寄存 器 中 的 标量 双 精 度 
浮 点 数 时 ， 只 有 寄存 器 的 低 64 位 会 用 到 ， 而 高 64 在 运算 中 保持 不 变 。 与 单 精度 浮 点 运算 一 
样 ， 正 确 的 数据 对 齐 虽 然 不 是 必需 的 ， 但 仍然 强烈 建议 大 家 将 标量 双 精 度 浮 点 操作 数 在 内 存 
中 正确 对 齐 。SseScalarFloatingPointArithmetic 的 运算 结果 如 输出 8-1 所 示 。 
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输出 8-1 示例 程序 SseScalarFloatingPointArithmetic 
Results for SseSfpArithmeticFloat () 





a: 2.500000 
b: -7.625000 
add: -5.125000 
Sub: 10.125000 
mul: -19.062500 
div: -0.327869 
min: -7.625000 
max: 2.500000 
fabs(b): 7.625000 


sqrt(fabs(b)): 2.761340 


Results for SseSfpArithmeticDouble () 


a: 3.14159265358979 
b: 2.71828182845905 
add: 5.85987448204884 
sub: 0.42331082513075 
mul: 8.53973422267357 
div: 1.15572734979092 
min: 2.71828182845905 
max: 3.14159265358979 
fabs(b): 2.71828182845905 


sqrt(fabs(b)): 1.64872127070013 


8.1.2 ”标量 浮 点 数 的 比较 


第 二 个 x86-SSE 标量 浮 点 型 示例 程序 是 SseScalarFloatingPointCompare。 这 个 程序 展示 
了 如 何 使 用 x86-SSE 标量 浮 点 比较 指令 comiss 和 comisd。 清 单 8-3 和 清单 8-4 分 别 展示 了 
相应 的 C++ 和 x86-32 汇编 语言 源 代码 。 


清单 8-3 SseScalarFloatingPointCompare.cpp 





#include "stdafx.h" 
#include «limits» 


using namespace std; 


extern "C" void SseSfpCompareFloat (float a, float b, bool* results); 
extern "C" void SseSfpCompareDouble (double a, double b, bool* results); 


const int m = 7; 
const char* OpStrings[m] - ("UO", "LT", "LE", "EQ", "NE", "GT", "GE"); 


void SseSfpCompareFloat() 
{ 


const int n = 4; 
float a[n] = {120.0, 250.0, 300.0, 42.0}; 
float b[n] = {130.0, 240.0, 300.0, 0.0}; 


// 设 定 NAN 测试 值 


b[n - 1] = numeric limits«float»::quiet NaN(); 


printf("Results for SseSfpCompareFloat()\n"); 
for (int i = 0; i < ny ie) 
{ 


bool results[m]; 


SseSfpCompareFloat (a[i], b[i], results); 
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printf("a: %8f b: %8f\n", a[i], b[i]); 


for (int j = 0; j « m j++) 
printf(" %s=%d", OpStrings[j], results[j]); 
printf("\n"); 


} 


void SseSfpCompareDouble(void) 
{ 
const int n 
double a[n] 
double b[n] 


4; 
(120.0, 250.0, 300.0, 42.0); 
(130.0, 240.0, 300.0, 0.0); 


// 设 定 NAN 测试 值 

b[n - 1] = numeric limits«double»::quiet NaN(); 213 
printf("\nResults for SseSfpCompareDouble() Wn"); 

for (int i = 0; i« n; i++) 


bool results[m]; 


SseSfpCompareDouble (a[i], b[i], results); 
printf("a: %81f b: %81f\n", a[i], b[i]); 


for (int j = 0; j « m j++) 


printf(" %s=%d", OpStrings[j], results[j]); 
printf(" in"); 


int tmain(int argc, TCHAR* argv[]) 
SseSfpCompareFloat(); 


SseSfpCompareDouble(); 
return 0; 


清单 8-4 SseScalarFloatingPointCompare_.asm 


.model flat,c 
.Code 


; extern "C" void SseSfpCompareFloat (float a, float b, bool* results); 
; 函数 说 明 。 本 函数 演示 comiss 指令 的 用 法 

; SSE 版 本 : SSE 

SseSfpCompareFloat proc 


push ebp 
mov ebp,esp 


; 载 入 参数 值 
movss xmmO,real4 ptr [ebp+8] ;xmmo = a 
movss xmmi,real4 ptr [ebp+12] ;xmm1 = b 
mov edx, [ebp+16] ;edx = 结果 数组 
; 基于 比较 结果 设置 结果 标志 
comiss xmmO,xmmi 
setp byte ptr [edx] ;如 果 无 序 EFLAGS.PF = 1 


jnp @F 
xor al,al 214 
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mov byte ptr [edx«1],al 
mov byte ptr [edx«2],al 
mov byte ptr [edx+3] ,al 
mov byte ptr [edx+4],al 
mov byte ptr [edx+5] ,al 
mov byte ptr [edx+6],al 
jmp Done 


@@: setb byte ptr [edx+1] 
setbe byte ptr [edx+2] 
sete byte ptr [edx+3] 
setne byte ptr [edx+4] 
seta byte ptr [edx+5] 
setae byte ptr [edx+6] 


Done: pop ebp 
ret 
SseSfpCompareFloat_ endp 


;赋予 缺 省 的 结果 数值 


;如 果 a < b MERRY 
;如 果 a <= b 则 设 字 节 
;如 果 a == b 则 设 字 节 
;如 果 a != b 则 设 字 节 
;如 果 a > b 则 设 字 节 
;如 果 a >= b 则 设 字 节 


; extern "C" void SseSfpCompareDouble (double a, double b, bool* results); 


; 函数 说 明 : 本 函数 演示 comisd 指令 的 用 法 


SSE 版 本 : SSE2 


SseSfpCompareDouble proc 
push ebp 
mov ebp,esp 


; 载 入 参数 数值 
movsd xmm0,real8 ptr [ebp+8] 
movsd xmm1,real8 ptr [ebp+16] 
mov edx, [ebp+24] 


; 基于 比较 结果 设置 结果 标志 
comisd xmmO,xmm1 
setp byte ptr [edx] 
jnp GF 
xor al,al 
mov byte ptr [edx+1],al 
mov byte ptr [edx+2],al 
mov byte ptr [edx+3] ,al 
mov byte ptr [edx+4],al 
mov byte ptr [edx+5],al 
mov byte ptr [edx«6],al 
jmp Done 


Q8: setb byte ptr [edx+1] 
setbe byte ptr [edx+2] 
sete byte ptr [edx43] 
setne byte ptr [edx«4] 
seta byte ptr [edx+5] 
setae byte ptr [edx46] 


Done: pop ebp 
ret 
SseSfpCompareDouble  endp 
end 


;Xxmm0 = a 
;xmm1 = b 
;edx = results array 


now 


;如 果 无 序 EFLAGS.PF = 1 


;使 用 缺 省 的 结果 数值 


;如 果 a < b 则 设 字 节 
;如 果 a <= b 则 设 字 节 
;如 果 a == b 则 设 字 节 
;如 果 a l= b 则 设 字 节 
;如 果 a > b 则 设 字 节 
;如 果 a >= b 则 设 字 节 


SseScalarFloatingPointCompare.cpp (清单 8-3 ) 的 逻辑 结构 与 前 一 个 示例 程序 类 似 。 它 
同样 包含 两 个 函数 ， 分 别 初始 化 单 精 度 和 双 精 度 浮 点 数 的 测试 用 例 。 请 注意 ， 为 了 验证 相关 
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指令 是 否 可 以 正确 处 理 无 序 比较 (unordered compare)， 每 个 测试 用 到 的 数组 对 都 包含 一 个 
NaN (Not a Number) 值 。C++ 代码 同样 包含 显示 每 个 测试 用 例 结果 的 代码 段 。 

在 SseScalarFloatingPointCompare .asm 文件 里 ， 汇 编 代 码 包 括 单 精度 和 双 精 度 两 个 函 
数 。 在 函数 序言 之 后 ， 函 数 SseSfpCompareFloat 使 用 movss 指令 把 参数 a All b 4} HI RA 
到 XMM0 fill XMMI 寄存 器 ， 然 后 把 指向 结果 数组 的 指针 载 人 EDX 寄存 器 。Comiss xmm0, 
xmml 指令 对 寄存 器 XMMO 和 XMMI 中 的 标量 单 精度 浮 点 数 进行 比较 ， 并 根据 比较 结果 设 
E EFLAG 寄存 器 的 状态 位 〈 参 见 表 8-1 )。 需 要 注意 的 是 ， 表 8-1 里 的 条 件 码 与 之 前 在 第 4 
章 讨论 的 x87 FPU f(u)comi(p) 指令 用 到 的 条 件 码 是 一 样 的 。 


表 8-1 comiss 和 comisd 指令 的 结果 (EFLAG ) 

关系 操作 符 EFLAGS 测试 
WMOXMM | bb | ae 
XMM0 <= XMMI | be | CF == 1 || ZF ==1 
KM | o S zi 
xwwor-xun | o S r 
XMM0 > XMMI [- 1L x $3 | CF == 0 && ZF == 0 
XMM0 >= XMMI a Sa CF=0 


SseSfpCompareFloat 函数 使 用 了 一 系列 setce 指令 来 解码 和 保存 比较 运算 的 结果 。 请 注 
意 ， 如 果 XMMO R XXMI 寄存 器 有 一 个 无 序 的 浮 点 数 ， 将 会 导致 EFLAGS.PF 状态 位 被 置 
1, 并且 结果 数组 的 每 个 Boolean (布尔 ) 标志 都 被 设 为 false， 同 时 在 comiss 或 comisd 指令 
后 有 可 能 会 产生 条 件 跳 转 。 函 数 SseSfpCompareDouble 与 SseSfpCompareFloat 几乎 完全 
一 样 ， 只 是 使 用 movsd 替换 了 movss， 用 comisd 替换 了 comiss， 堆 栈 的 偏 移 量 也 是 标量 双 
精度 浮 点 值 。 输 出 8-2 显示 了 示例 程序 SseScalarFloatingPointCompare 的 输出 结果 。 


输出 8-2 示例 程序 SseScalarFloatingPointCompare 


Results for SseSfpCompareFloat() 
a: 120.000000 b: 130.000000 

U0-0 LT=1 LE-1 EQ=0 NE=1 GT=0 GE=0 
a: 250.000000 b: 240.000000 

U0=0 LT=0 LE=0 EQ=0 NE=1 GT=1 GE-1 
a: 300.000000 b: 300.000000 

U0=0 LT=0 LE-1 EQ=1 NE=0 GT=0 GE=1 
a: 42.000000 b: 1.#QNANO 

U0-1 LT=0 LE=0 EQ=0 NE=0 GT=0 GE=0 


Results for SseSfpCompareDouble() 
a: 120.000000 b: 130.000000 

U0=0 LT=1 LE-1 EQ=0 NE=1 GT=0 GE=0 
a: 250.000000 b: 240.000000 

UO=0 LT=0 LE=0 EQ=0 NE=1 GT=1 GE=1 
a: 300.000000 b: 300.000000 

UO-0 LT=0 LE=1 EQ=1 NE=0 GT=0 GE=1 
a: 42.000000 b: 1.#QNANO 

UO=1 LT=0 LE=0 EQ=0 NE-O GT=0 GE=0 


8.1.3 ”标量 浮 点 数 的 类 型 转换 
x86-SSE 包含 多 个 对 不 同 数据 类 型 进行 转换 的 指令 ， 比 如 在 C++ 程序 里 最 常见 的 浮 点 


-有 -一 -~ 


数 与 整 型 数 间 的 相互 转换 操作 。 示 例 程序 SseScalarFloatingPointConversions 演示 了 如 何 使 
用 x86-SSE 转换 指令 进行 数据 类 型 转换 。 这 个 示例 程序 同时 演示 了 如 何 通 过 修改 MXCSR 
寄存 器 的 浮 点 伟人 控制 位 改变 x86-SSE 的 浮 点 伟人 模式 。 清 单 8-5 和 清单 8-6 分 别 包 含 了 


SseScalarFloatingPointConversions 示例 程序 的 C++ 和 汇编 语言 的 源 代码 。 


清单 8-5 SseScalarFloatingPointConversions.cpp 


#include "stdafx.h" 
#define USE MATH_DEFINES 
#include <math.h> 
#include "MiscDefs.h" 


// 简单 的 联合 (union )， 用 于 数据 交换 


union XmmScalar 


{ 
float 132; 
double r64; 
Uint32 i32; 
Uint64 i64; 
h 


// 数据 的 顺序 必须 与 SseScalarFloatingPointConversions .asm 里 定义 的 跳 转 表 一 臻 
enum CvtOp : unsigned int 


{ 
Cvtsi2ss, // Int32 转 成 float 
Cvtss2si， // float 转 成 Int32 
Cvtsi2sd， // Int32 转 成 double 
Cvtsd2si， // double 转 成 Int32 
Cvtss2sd, // float 转 成 double 
Cvtsd2ss， // double 转 成 float 

}; 


// x86-SSE 舍 入 模式 的 枚 举 类 型 


enum SseRm : unsigned int 
{ 
h 


extern "C" Uint32 SseGetMxcsr (void); 
extern "C" Uint32 SseSetMxcsr (Uint32 mxcsr); 


Nearest, Down, Up, Truncate 


extern "C" SseRm SseGetMxcsrRoundingMode (void); 
extern "C" void SseSetMxcsrRoundingMode (SseRm rm); 
extern "C" bool SseSfpConversion (XmmScalar* a, XmmScalar* b, CvtOp cvt op); 


const SseRm SseRmVals[] = {SseRm::Nearest, SseRm::Down, SseRm::Up, = 
SseRm: : Truncate}; 
const char* SseRmStrings[] = ("Nearest", "Down", "Up", "Truncate"); 


void SseSfpConversions(void) 
{ 
XmmScalar srci, src2; 
XmmScalar desi, des2; 
const int num rm - sizeof(SseRmVals) / sizeof (SseRm); 
Uint32 mxcsr save - SseGetMxcsr (); 


SITC1.T32 
Src2.r64 


(float)M PI; 
-M E; 


for (int i = 0; i « num rm; i++) 
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{ 
SseRm rmi = SseRmVals[i]; 
SseRm rm2; 
SseSetMxcsrRoundingMode (rm1); 
Im2 = SseGetMxcsrRoundingMode (); 
if (rm2 != rmi) 
{ 
printf(" SSE rounding mode change failed)\n"); 
printf(" Im1: %d rm2: %d\n", rm1, rm2); 
else 
printf("X86-SSE rounding mode = %s\n", SseRmStrings[rm2]); 
SseSfpConversion (&desi, &srci, CvtOp::Cvtss2si); 
printf(" cvtss2si: %121f --» %6d\n", srci.r32, des1.i32); 
SseSfpConversion (&des2, &src2, CvtOp::Cvtsd2si); 
printf(" cvtsd2si: %121f --» %6d\n", src2.r64, des2.i32); 
} 
} 
SseSetMxcsr (mxcsr save); 
} 
int tmain(int argc, _TCHAR* argv[]) 
{ 
SseSfpConversions(); 
return 0; 
) 


清单 8-6 SseScalarFloatingPointConversions .asm 


.model flat,c 
.code 


; extern "C" bool SseSfpConversion (XmmScalar* des, const XmmScalar* src,* 
CvtOp cvt op) 


; 函数 说 明 : 本 函数 演示 x86-SSE 标量 浮 点 转换 指令 的 使 用 方法 


; SSE 版 本 : SSE2 


SseSfpConversion proc 
push ebp 
mov ebp,esp 


; 载 入 参数 值 ， 并 确保 cvt_op 是 有 效 的 


mov eax, [ebp+16] ;cvt op 

mov ecx, [ebp+12] ;ptr to src 

mov edx, [ebp+8] ;ptr to des 

cmp eax,CvtOpTableCount 

jae BadCvtOp ;如 果 cvt_op 无 效 ， 跳 转 到 BadCvtOp 

jmp [CvtOpTable+eax*4] ; 跳 转 到 正确 的 类 型 转换 函数 
SseCvtsi2ss: 

mov eax,[ecx] ; 载 入 整数 

cvtsi2ss xmmO,eax ;转换 成 单 精度 浮 点 数 

movss real4 ptr [edx],xmmo ;保存 结果 


mov eax,1 
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pop ebp 
ret 


SseCvtss2si: 
movss xmmO,real4 ptr [ecx] 
cvtss2si eax,xmmo 
mov [edx],eax 
mov eax,1 
pop ebp 
ret 


SseCvtsi2sd: 
mov eax,[ecx] 
cvtsi2sd xmm0, eax 
movsd real8 ptr [edx],xmmo 
mov eax,1 
pop ebp 
ret 


SseCvtsd2si: 
movsd xmmO,real8 ptr [ecx] 
cvtsd2si eax,xmmo 
mov [edx],eax 
mov eax,1 
pop ebp 
ret 


SseCvtss2sd: 
movss xmm0,real4 ptr [ecx] 
cvtss2sd xmm1, xmmO 
movsd real8 ptr [edx],xmm1 
mov eax,1 
pop ebp 
ret 


SseCvtsd2ss: 
movsd xmmO,real8 ptr [ecx] 
cvtsd2ss xmm1,xmmo 
movss real4 ptr [edx],xmm1 
mov eax,1 
pop ebp 
ret 


BadCvtOp: 
XOT eax,eax 
pop ebp 
ret 


39 
9o 
Re 


; 载 入 浮 点 数 
;转换 成 整数 
;保存 结果 


; 载 入 整数 
;转换 成 双 精 度 浮 点 数 
;保存 结果 


; 载 入 双 精 度 浮 点 数 
;转换 成 整数 
;保存 结果 


; 载 入 单 精度 浮 点 数 
;转换 成 双 精 度 浮 点 数 
;保存 结果 


; 载 入 双 精 度 浮 点 数 
;转换 成 单 精度 浮 点 数 
;保存 结果 


;设置 返回 错误 码 


> 下 表 中 这 些 数据 的 顺序 必须 与 SsescalarFloatingPointConversions.cpp 中 定义 的 enum Cvtop 一 至 
align 4 

CvtOpTable dword SseCvtsi2ss, SseCvtss2si 
dword SseCvtsi2sd, SseCvtsd2si 
dword SseCvtss2sd, SseCvtsd2ss 

CvtOpTableCount equ ($ - CvtOpTable) / size dword 

SseSfpConversion endp 


5 extern "C" Uint32 SseGetMxcsr (void); 
; 函数 说 明 : 本 函数 用 于 获得 MXCSR 寄存 器 的 当前 内 容 


; 返回 值 : MXCSR 的 内 容 
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SseGetMxcsr proc 
push ebp 
mov ebp,esp 
sub esp,4 


stmxcsr [ebp-4] 
mov eax, [ebp-4] 


mov esp,ebp 

pop ebp 

ret 
SseGetMxcsr endp 
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;保存 MXCSR 寄存 器 
;把 MXCSR 寄存 器 值 载 入 到 EAX 


; extern "C" Uint32 SseSetMxcsr (Uint32 mxcsr); 


; 函数 说 明 : 本 函数 把 一 个 新 数值 载 入 MXCSR 寄存 器 


SseSetMxcsr_ proc 
push ebp 
mov ebp,esp 
sub esp,4 


mov eax, [ebp+8] 
and eax,0ffffh 

mov [ebp-4],eax 
ldmxcsr [ebp-4] 


mov esp,ebp 

pop ebp 

ret 
SseSetMxcsr endp 


;eax = 新 MXCSR 值 
;mxcsr[31:16] 必须 为 0 


;加 载 MXCSR 寄存 器 


; extern "C" SseRm SseGetMxcsrRoundingMode (void); 


; 函数 说 明 。 本 函数 从 MXCSR . RC 获得 当前 的 x86-SSE 的 浮 点 会 入 模式 


; 返回 值 : 当前 的 x86-SsE FAR 


MxcsrRcMask equ 9fffh 
MxcsrRcShift equ 13 


SseGetMxcsrRoundingMode proc 
push ebp 
mov ebp,esp 
sub esp,4 


stmxcsr [ebp-4] 

mov eax, [ebp-4] 

shr eax,MxcsrRcShift 
and eax,3 


mov esp,ebp 

pop ebp 

ret 
SseGetMxcsrRoundingMode_ endp 


;MXCSR. RC 位 模式 
;MXCSR.RC 移 位 数 


;保存 MXCSR 


jeax[1:0] = MXCSR.RC 相应 位 
;屏蔽 掉 不 用 的 位 


jextern "C" void SseSetMxcsrRoundingMode (SseRm rm); 


; 函数 说 明 : 下面 的 函数 改变 MXCSR.RC 中 的 会 入 模式 


SseSetMxcsrRoundingMode proc 
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push ebp 
mov ebp,esp 
sub esp,4 


mov ecx [ebp+8] jecx = rm 
and ecx,3 ;屏蔽 掉 不 用 的 位 
shl ecx,MxcsrRcShift ;ecx[14:13] - rm 


stmxcsr [ebp-4] ;保存 当前 的 MXCSR 

mov eax, [ebp-4] 

and eax,MxcsrRcMask ;屏蔽 掉 旧 的 MXCSR. RC 位 
or eax,ecx ;插入 新 的 MXCSR.RC 位 
mov [ebp-4],eax 

ldmxcsr [ebp-4] ; 载 入 更 新 后 的 MXCSR 


mov esp,ebp 

pop ebp 

ret 
SseSetMxcsrRoundingMode endp 

end 


SseScalarFloatingPointConversions.cpp (清单 8-5 ) 的 开始 部 分 声明 了 一 个 C++ 联合 体 
XmmScalar， 用 于 交换 数据 。 接 下 来 定义 了 两 个 枚 举 类 型 : CvtOp 和 SseRm。CvtOp 用 于 选 
择 浮 点 转换 类 型 ， 而 SseRm 用 于 定义 x86-SSE 浮 点 舍 人 模式 。C++ BA SseSfpConversions 
先 初始 化 一 组 XmmScalar 实例 作为 测试 数据 ， 并 且 调 用 一 个 汇编 语言 函数 进行 不 同 舍 人 模 
式 下 的 浮 点 数 到 整数 的 数据 类 型 转换 。 各 个 转换 操作 的 结果 最 后 被 显示 出 来 以 便于 验证 和 
比较 。 

x86-SSE 浮 点 舍 人 模式 由 MXCSR 寄存 器 的 浮 点 控制 位 域 (第 13 和 14 位 ) 决定 。 对 于 
Visual C++， 缺 省 的 浮 点 伟人 模式 是 就 近 舍 人 。 依 照 Visual C++ 的 调用 约定 ，MXCSR[15:6] 
( MXCSR 寄存 器 的 第 15 到 第 6 位 ) 在 大 多 数 函 数 边界 必须 被 保护 起 来 。SseSfpConversions 
在 改变 x86-SSE 舍 人 模式 前 保存 MXCSR 的 内 容 ， 并 在 退出 前 还 原 MXCSR 寄存 器 的 内 容 ， 
满足 了 上 述 要 求 。 

汇编 语言 源 文件 SseScalarFloatingPointConversions .asm (清单 8-6) 包含 数据 类 型 转 
换 和 MXCSR 寄存 器 控制 函数 。SseSfpConversion 函数 使 用 特定 的 数据 和 转换 操作 符 实 
现 浮 点 型 数据 转换 。 与 我 们 在 之 前 章节 的 示例 程序 中 已 经 见 到 的 一 样 ， 这 个 函数 使 用 了 跳 
转 表 。 汇 编 语言 文件 SseScalarFloatingPointConversions .asm 同样 包含 多 个 管理 MXCSR 
ay 4F 4h AY PRL. PR BK SseGetMxcsr_ 和 SseSetMxcsr 分 别 用 于 读 取 和 写 人 MXCSR 寄存 
器 。 这 两 个 因数 分 别 使 用 了 stmxcsr (Store MXCSR Register State， 存 储 MXCSR 寄存 器 状 
A) 和 1ldmxcsr (Load MXCSR Register, Z& A MXCSR 寄存 器 ) 指令 。stmxcsr 和 1ldmxscr 
都 要 求 它们 独占 的 操作 数 为 双 字 数据 保存 在 内 存 中 。 函 数 SseGetMxcsrRoundingMode_ 和 
SseSetMxcsrRoundingMode 可 以 用 来 修改 当前 的 x86-SSE 浮 点 舍 人 模式 。 这 两 个 函数 使 用 
BE SseRm 来 保存 或 者 选取 x86-SSE 浮 点 舍 信 模式。 

其 实 并 不 是 任意 两 种 数据 类 型 都 可 以 转换 ， 比 如 cvtss2si 指令 就 不 能 把 一 个 大 的 浮 点 数 
转换 成 带 符号 双 字 整 型 数 。 如 果 一 个 特定 的 转换 无 法 进行 且 无 效 操作 异常 (MXCSR.IM) 被 
屏蔽 (Visual C++ 缺 省 情况 )， 处 理 器 会 设置 MXCSR AY IE {iz (Invalid Operation Error Flag, 
无 效 操作 错误 标志 )， 并 把 0x80000000 复制 到 目标 操作 数 。 输 出 8-3 是 示例 程序 SseScalarF1l 
oatingPointConversions 的 执行 结果 。 
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输出 8-3 示例 程序 SseScalarFloatingPointConversions 
X86-SSE rounding mode = Nearest 


cvtss2si: 3.141593 --> 3 
cvtsd2si: -2.718282 --> =3 
X86-SSE rounding mode = Down 
cvtss2si: 3.141593 --> 3 
cvtsd2si: -2.718282 --» -3 
X86-SSE rounding mode - Up 
cvtss2si: 3.141593 --» 4 
cvtsd2si: -2.718282 --» -2 
X86-SSE rounding mode - Truncate 
cvtss2si: 3.141593 --> 3 
cvtsd2si: -2.718282 --> -2 


8.2 高 级 标量 浮 点 编程 

本 节 的 示例 程序 将 演示 如 何 使 用 x86-SSE 标量 浮 点 指令 集 进 行 高 级 计算 。 第 一 个 示例 
程序 是 之 前 一 个 示例 程序 的 变形 ， 重 点 在 于 突出 演示 x87 FPU 和 x86-SSE 之 间 的 一 些 关键 
的 不 同 点 。 在 第 二 个 示例 程序 里 ， 我 们 将 学 习 如 何在 包含 x86-SSE 指令 的 汇编 语言 函数 里 使 
用 数据 结构 和 标准 C++ 库 函 数 。 


8.2.1 用 标量 浮 点 指令 计算 球体 表面 积 和 体积 


现在 我 们 已 经 对 x86-SSE 的 标量 浮 点 计算 能 力 有 所 了 解 ， 是 时 候 利用 之 前 所 学 到 的 东 
西 进行 一 些 实际 的 运算 了 。 在 本 节 我 们 将 学 习 SseScalarFloatingPointSpheres 这 个 示例 程序 。 
这 个 程序 包含 一 个 汇编 语言 函数 ， 使 用 x86-SSE 的 标量 浮 点 指令 计算 球体 的 表面 积 和 体积 。 
在 第 4 章 有 一 个 示例 程序 ， 使 用 x87 FPU 指令 集 计算 球体 的 表面 积 和 体积 。 现 在 用 x86-SSE 
替换 x87 FPU 来 重 构 一 下 那个 程序 我们 将 体验 到 使 用 x86-SSE 来 实现 同样 的 任务 是 多 么 
轻松 。 清 单 8-7 和 清单 8-8 分 别 列 出 了 C++ 源 文件 SseScalarFloatingPointSpheres.cpp 和 汇 
编 源 文件 SseScalarFloatingPointSpheres .asm 的 内 容 。 


清单 8-7 SseScalarFloatingPointSpheres.cpp 
#include "stdafx.h" 
extern "C" bool SseSfpCalcSphereAreaVolume (double r, double* sa, double* v); 
int tmain(int argc, _TCHAR* argv[]) 


const double r[] - (-1.0, 0.0, 1.0, 2.0, 3.0, 5.0, 10.0, 20.0); 
int num r - sizeof(r) / sizeof(double); 


for (int i = 0; i < num r; i++) 
{ 


double sa, v; 
bool rc = SseSfpCalcSphereAreaVolume (r[i], &sa, &v); 


printf("rc: Xd r: 48.21f sa: %10.41f vol: %10.41f\n", rc, r[i],~ 


sa, v); 


return 0; 


) 
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清单 8-8 SseScalarFloatingPointSpheres_.asm 
.model flat,c 


; 计算 球体 表面 积 和 体积 所 用 到 的 常量 
.Const 
r8 pi real8 3.14159265358979323846 
r8 four real8 4.0 
r8 three real8 3.0 
r8 neg one real8 -1.0 
.code 


extern "C" bool SseSfpCalcSphereAreaVolume (double r, double* sa, double* v); 


; 函数 描述 : 本 函数 计算 一 个 球体 的 表面 积 和 体积 


; 返回 : 0 = 球体 半径 无 效 


1 = 计算 成 功 
; SSE 版 本 : SSE2 


SseSfpCalcSphereAreaVolume proc 
push ebp 
mov ebp,esp 


; 载 入 参数 并 确定 球体 半径 值 是 有 效 的 


movsd xmm0,real8 ptr [ebp+8] ;xmmo = I 
mov ecx, [ebp+16] ;ecx = sa 
mov edx, [ebp+20] ;edx = v 
xorpd xmm],xmm7 ;xmm7 = 0.0 
comisd xmmO,xmm7 ;比较 n 是 不 是 0.0 
jp BadRadius ;如 果 r 为 NAN， 跳 转 
jb BadRadius ;如 果 r < 0.0， 跳 转 
; 计算 球体 表面 积 
movsd xmm1,xmmO ;xmm1 = r 
mulsd xmm1,xmm1 xmi =r * 47 
mulsd xmmi,[r8 four] ;mm-a4*r*r 
mulsd xmmi,[r8 pi] ;xmmi- 4*pir*r 
movsd real8 ptr [ecx],xmmi ;保存 表面 积 
; 计算 球体 体积 
mulsd xmmi,xmmo ;Xxmm1 42 pt Pn Be ep 


divsd xmm1,[r8 three] ;xmmi 4*py*x *r*r/3 
movsd real8 ptr [edx],xmmi ;保存 体积 

mov eax,1 ;设置 返回 值 为 1 

pop ebp 

ret 


; 球体 直径 非法 情况 下 的 处 理 : 表面 积 和 体积 都 设 为 -1.0 
BadRadius: 
movsd xmmO,[r8 neg one] ;Xxmm0 = -1.0 
movsd real8 ptr [ecx],xmmo ;*sa = -1.0 
movsd real8 ptr [edx],xmmo ;*v = -1.0; 
XOT. EaXseaX ; 设 定 返 回 值 为 0 
pop ebp 
ret 
SseSfpCalcSphereAreaVolume endp 
end 


SseScalarFloatingPointSpheres 的 C++ 部 分 (清单 8-7 ) 很 简单 ， 就 是 使 用 不 同 的 测试 值 (ER 
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的 半径 ) 调用 汇编 语言 函数 SseSfpCalcSphereAreaVolume 。 在 SseSfpCalcSphere-AreaVolume_ 
函数 (清单 8-8 ) 序言 之 后 ， 首 先 把 参数 r、sa 和 v 分 别 载 人 XMM0、ECX 和 EDX， 然 后 调用 
comisd xmm0, xmm7 指令 比较 r 和 0.0， 并 用 EFLAGS 的 状态 位 标识 比较 结果 。 不 同 于 x87 
FPU, x86-SSE 指令 集 不 支持 fldz 和 fldpi 之 类 的 载 人 常量 数据 的 指令 。 所 有 浮 点 常量 都 需要 
从 内 存 载 人 或 者 通过 x86-SSE 指令 计算 而 来 ， 这 也 是 在 调用 comisd 之 前 先 调用 xorpd ( Bitwise 
Logical XOR for Double-Precision Floating-Point Values， 双 精度 浮 点 数 的 按 位 逻辑 异 或 ) 指令 的 
原因 。 之 后 两 个 条 件 跳 转 指令 jp 和 jb 用 来 防止 函数 使 用 非法 的 参数 (半径 值 )。 

接 下 来 的 代码 通过 调用 mulsd 指令 计算 球体 表面 积 ， 然 后 调用 mulsd 和 divsd 计算 
BR kA. PR SseSfpCalcSphereAreaVolume 很 好 地 说 明了 相对 于 x87 FPU 指 令 集 ， 
用 x86-SSE 指令 集 来 进行 标量 浮 点 算术 运算 多 么 简单 而 轻松 。 输 出 8-4 显示 了 示例 程序 
SseScalarFloatingPointSpheres 的 执行 结果 。 


输出 8-4 ”示例 程序 SseScalarFloatingPointSpheres 


rc: 0 T -1.00 sa: -1.0000 vol: -1.0000 
rit =F 0.00 sa: 0.0000 vol: 0.0000 
ics d X 1.00 sa: 12.5664 vol: 4.1888 
ic: 1 r 2.00 sa: 50.2655 vol: 33.5103 
yc: 4 x: 3.00 sa: 113.0973 vol: 113.0973 
rct d qd 5.00 sa: 314.1593 vol: 523.5988 
rcs d r 10.00 sa: 1256.6371 vol: 4188.7902 
wi r 20.00 sa: 5026.5482 vol: 33510.3216 


8.22 ”用 标量 浮 点 指令 计算 平行 四 边 形 面积 和 对 角 线 长 度 


本 章 的 最 后 一 个 标量 浮 点 示例 程序 SseScalarFloatingPointParallelograms 将 演示 如 何 使 
JH x86-SSE 标量 浮 点 指令 来 根据 边 长 和 一 个 夹 角 计算 平行 四 边 形 的 面积 和 对 角 线 长 度 ， 同 时 
这 个 示例 将 演示 如 何在 汇编 语言 函数 内 调用 C++ 库 函 数 。 清 单 8-9 和 清单 8-10 分 别 显 示 了 
示例 程序 SseScalarFloatingPointParallelograms 的 C++ 和 汇编 语言 的 源 代码 。 


清单 8-9 SseScalarFloatingPointParallelograms.cpp 
#include "stdafx.h" 
#define USE MATH DEFINES 
#include «math.h» 
#include «stddef.h» 


// 如 果 要 显示 PDATA 信息 ， 请 去 掉 下 面 这 行 注释 符号 
//#define DISPLAY PDATA INFO 


// 下 面 这 个 结构 体 必须 与 SseScalarFloatingPointParallelograms_.asm 文件 里 定义 的 结构 体 一 臻 
typedef struct 
{ 


double A; // 左右 两 条 边 的 长 度 

double B; // 上 下 两 条 边 的 长 度 

double Alpha; // alpha 夹 角 的 角度 

double Beta; // beta 夹 角 的 角度 

double H; // 平行 四 边 形 的 高 度 

double Area; // 平行 四 边 形 面 积 

double P; // 对 角 线 P 的 长 度 

double 0; // HAR Q 的 长 度 

bool BadValue; // WRA, BRA Alpha 非法 ， 则 设 为 true 


char Pad[7]; // 保留 给 将 来 使 用 
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) PDATA; 


extern "C" bool SseSfpParallelograms (PDATA* pdata, int n); 
extern "C" double DegToRad - M PI / 180.0; 

extern "C" int SizeofPdataX86 ; 

const bool PrintPdataInfo - true; 


void SetPdata(PDATA* pdata, double a, double b, double alpha) 
( 


pdata->A = a; 

pdata->B = b; 

pdata->Alpha = alpha; 
} 
int _tmain(int argc, _TCHAR* argv[]) 
{ 


#ifdef DISPLAY PDATA INFO 
size t spd1 = sizeof(PDATA); 
size t spd2 SizeofPdataX86 ; 


if (spdi !- spd2) 
printf("PDATA size discrepancy [Xd, %d]", spdi, spd2); 


else 

{ 
printf("sizeof(PDATA): XdNn", spd1); 
printf("Offset of A: 4dNn", offsetof(PDATA, A)); 
printf("Offset of B: %d\n", offsetof(PDATA, B)); 
printf("Offset of Alpha: %d\n", offsetof(PDATA, Alpha)); 
printf("Offset of Beta: %d\n", offsetof(PDATA, Beta)); 
printf("Offset of H %d\n", offsetof(PDATA, H)); 
printf("Offset of Area: %d\n", offsetof(PDATA, Area)); 
printf("Offset of P: %d\n", offsetof(PDATA, P)); 
printf("Offset of 0: %d\n", offsetof(PDATA, 0)); 
printf("Offset of BadValue %d\n", offsetof(PDATA, BadValue)); 
printf("Offset of Pad XdNn", offsetof(PDATA, Pad)); 

#endif 


const int n = 10; 
PDATA pdata[n]; 


// 创建 一 些 测试 用 的 平行 四 边 形 
Setpdata(&pdata[0], -1.0, 1.0, 60.0); 


Setpdata(&pdata[1], 1.0, -1.0, 60.0); 
SetPdata(&pdata[2], 1.0, 1.0, 181.0); 
SetPdata(&pdata[3], 1.0, 1.0, 90.0); 
SetPdata(&pdata[4], 3.0, 4.0, 90.0); 
SetPdata(&pdata[5], 2.0, 3.0, 30.0); 
SetPdata(&pdata[6], 3.0, 2.0, 60.0); 
SetPdata(&pdata[7], 4.0, 2.5, 120.0); 
SetPdata(&pdata[8], 5.0, 7.125, 135.0); 
SetPdata(&pdata[9], 8.0, 8.0, 165.0); 


SseSfpParallelograms (pdata, n); 


for (int i = 0; i < n; i++) 

{ 
PDATA* p = &pdata[i]; 
printf("\npdata[%d] - BadValue = %d\n", i, p->BadValue); 
printf("A: X12.61f B: %12.61f\n", p->A, p->B); 
printf("Alpha: %12.61f Beta: 412.61f An", p-»Alpha, p->Beta); 
printf("H: %12.61f Area: %12.61f\n", p->H, p-»Area); 
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printf("P: %12.61f Q: %12.61f\n", p->P, p->Q); 


return 0; 


清单 8-10 SseScalarFloatingPointParellelograms_.asm 





.model flat,c 


; PRIX MAMA AS SseScalarFloatingPointParallelograms.cpp 文件 里 定义 的 结构 体 一 致 


PDATA struct 


A real8 ? 
B real8 ? 
Alpha  real8 ? 
Beta real8 ? 
H real8 ? 
Area real8 ? 
P real8 ? 
0 real8 ? 


BadVal byte ? 
Pad byte 7 dup(?) 
PDATA ends 


; 常量 定义 
.Const 


public SizeofPdataX86_ 


r8 2p0 real8 2.0 
r8 180p0 real8 180.0 
r8 MinusOne real8 -1.0 


SizeofPdataX86 dword size PDATA 


.code 


extern sin:proc, cos:proc 
extern DegToRad:real8 


; extern "C" bool SseSfpParallelograms (PDATA* pdata, int n); 


; 函数 说 明 : 本 函数 计算 平行 四 边 形 的 面积 和 对 角 线 长 度 


; 局 部 栈 : [ebp-8] x87 FPU 传输 位 置 
3 [ebp-16] Alpha 夹 角 弧度 


SSE 版 本 : SSE2 


SseSfpParallelograms proc 
push ebp 
mov ebp,esp 
sub esp,16 
push ebx 


; 载 入 并 验证 n 
XOI eax,eax 
mov ebx, [ebp+8] 
mov ecx, [ebp+12] 
test ecx,ecx 
jle Done 


; 初始 化 常量 


;为 局 部 变量 分 配 空间 


;设置 错误 码 
;ebx = pdata 
jecx = n 


;如 果 n <= 0 则 跳 转 到 Done 
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movsd xmm6,real8 ptr [r8 180po] 
xorpd xmm],xmm7 
sub esp,8 


Loop1: 


; 载 入 并 验证 A 和 B 

movsd xmmO,real8 ptr [ebx«PDATA.A] 
movsd xmm1,real8 ptr [ebx+PDATA.B] 
comisd xmmO,xmm7 

jp InvalidValue 

joe InvalidValue 

comisd xmm1,xmm7 

jp InvalidValue 

jbe InvalidValue 


载 入 并 验证 Alpha 
movsd xmm2,real8 
comisd xmm2,xmm7 
jp InvalidValue 
jbe InvalidValue 
comisd xmm2,xmm6 
jae InvalidValue 


wee 


it @ Beta 


subsd xmm6, xmm2 


ve 


movsd real8 ptr [ebx«PDATA.Beta], xmm6 


; 计算 sin(Alpha) |. 
mulsd xmm2,real8 ptr [DegToRad] 
movsd real8 ptr [ebp-16],xmm2 
movsd real8 ptr [esp],xmm2 
call sin 
fstp real8 ptr [ebp-8] 


计算 平行 四 边 形 高 度 和 面积 _ 
movsd xmmO,real8 ptr [ebx+PDATA.A] 
mulsd xmm0,real8 ptr [ebp-8] 
movsd real8 ptr [ebx+PDATA.H],xmmo 
mulsd xmmO,real8 ptr [ebx«PDATA.B] 


we 


movsd real8 ptr [ebx«PDATA. AREA] , xmmo 


计算 cos(Alpha) . 
movsd xmm0,real8 ptr [ebp-16] 
movsd real8 ptr [esp],xmmo 
call cos 
fstp real8 ptr [ebp-8] 
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计算 2.0 * A * B * cos(Alpha). 
movsd xmmO,real8 ptr [r8 2po] 
movsd xmmi,real8 ptr [ebx+PDATA.A] 
movsd xmm2,real8 ptr [ebx+PDATA.B] 
mulsd xmmO, xmm1 
mulsd xmmo,xmm2 
mulsd xmmO,real8 ptr [ebp-8] 


; 计算 A*A+B*B 
movsd xmm3,xmm1 
movsd xmm4, xmm2 
mulsd xmm3,xmm3 
mulsd xmm4,xmm4 
addsd xmm3,xmm4 
movsd xmm4,xmm3 


;xmm6 
;xmm7 


180.0 
0.0 


;为 sin/cos arg 预 留 空间 


;xmmo 
;xmmo 


;如 果 A <= 0.0 则 跳 转 到 InvalidValue 


;如 果 B <= 0.0 则 跳 转 到 InvalidValue 


ptr [ebx+PDATA.Alpha] 


;如 果 Alpha <= 0.0， 则 跳 转 


;如 果 Alpha >= 180.0， 则 跳 转 


;Beta = 


;保存 Beta 


180.0 - Alpha 


;把 Alpha 角度 值 转换 成 弧度 值 
;把 Alpha 拷贝 到 堆栈 


;保存 sin(Alpha) 


;A 


3A * sin(Alpha) 


;保存 高 度 
3A * sin(Alpha) * B 


;保存 面积 


;xmm0 = Alpha 角度 的 弧度 值 
;把 Alpha 拷贝 到 堆栈 


;保存 cos(Alpha) 


* 关 * 


* t o» & 
»»co» 
十 十 
o go 


B 


A 
A* 
A * B * cos(Alpha) 


* * 


w w 
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; 计算 P 和 0 
subsd xmm3,xmmo 
sqrtsd xmm3,xmm3 ;xmm3 = P 
movsd real8 ptr [ebx«PDATA.P], xmm3 
addsd xmm4,xmmo 


sqrtsd xmm4,xmm4 ;xmm4 - Q 

movsd real8 ptr [ebx+PDATA.Q],xmm4 

mov dword ptr [ebx«PDATA.BadVal],O ;把 BadVal i£ A false 232 
NextItem: 

add ebx,size PDATA jebx = 数组 中 的 下 一 个 元 素 

dec ecx 

jnz Loopi ;重复 循环 直到 结束 

add esp,8 ;恢复 ESP 


Done: pop ebx 
mov esp,ebp 
pop ebp 
ret 


; 把 结构 体 成 员 设 为 已 知 以 便 显示 

InvalidValue: 
movsd xmmO,real8 ptr [r8 MinusOne] 
movsd real8 ptr [ebx«PDATA.Beta], xmmo 
movsd real8 ptr [ebx«PDATA.H], xmmo 
movsd real8 ptr [ebx+PDATA.Area] , xmmo 
movsd real8 ptr [ebx«PDATA.P],xmmo 
movsd real8 ptr [ebx«PDATA.0], xmmo 
mov dword ptr [ebx+PDATA.BadVal],1 
jmp NextItem 


SseSfpParallelograms  endp 
end 





在 分 析 SseScalarFloatingPointParallelograms 的 
源 代码 之 前 ， 我 们 先 来 复习 一 下 平行 四 边 形 的 基本 
几何 性 质 。 图 8-1 展示 了 一 个 标准 的 平行 四 边 形 。 
这 张 图 (包括 源 代 码 ) 用 4 表示 左右 两 条 边 的 长 度 ， 
HB Xem E PRAWN KE, FH H RISE, Hla 
(Alpha) 和 8 (Beta) 表示 左右 两 个 夹 角 , AP AO HOS 
表示 两 条 对 角 线 的 长 度 。 图 8-1 一 个 标准 的 平行 四 边 形 3 

H, B. P RIQRIVJA A, BflaiETEHOKE, HAASE: 

B=180-a H = Asin(a) Area = ABsin(a) 
P = JÆ * B? - 2ABcos(A) Q =,/A’+ B - 2ABcos(A) 

我 们 现在 回 过 头 来 分 析 SseScalarFloatingPointParallelograms 这 个 示例 程序 。SseScalar 
FloatingPointParallelograms 定义 了 一 个 结构 体 来 帮助 管理 平行 四 边 形 的 各 个 参数 。 在 C++ 
源 代码 里 ， 这 个 结构 体 是 PDATA， 定 义 在 源 文件 SseScalarFloatingPointParallelograms.cpp 
的 头 部 。 当 我 们 在 C++ 里 声明 一 个 包含 多 个 元 素 的 结构 体 的 时 候 ， 需 要 知道 每 个 元 素 在 结 
构 体 内 的 偏 移 ， 这 样 才能 保证 在 汇编 语言 源 代码 里 定义 同样 的 数据 结构 的 时 候 保 持 一 致 性 。 
可 通过 定义 DISPLAY_PDATA_INFO 预 处 理 器 来 启用 _tmain 函数 开头 的 一 块 代码 。 因 为 汇 
编 语 言 图 数 SseSfpParallelograms 要 处 理 包含 PDATA 项 的 数组 ， 所 以 保证 PDATA 这 个 结 
构 体 在 C++ 和 汇编 语言 两 个 版 本 里 的 大 小 一 致 很 重要 。 
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结构 体 PDATA 的 汇编 语言 版 本 定义 在 SseScalarFloatingPointParallelograms_.asm( 清单 8-10 ) 
文件 的 头 部 。 特 别 要 注意 的 是 ,与 C++ 编译 器 不 同 ， 汇 编 编 译 器 不 会 自动 地 把 结构 体 的 成 
员 对 齐 到 它们 的 自然 边界 (比如 自动 4 字 节 对 齐 或 8 字 节 对 齐 )。 在 汇编 语言 里 ， 定 义 结构 
体 时 经 常 需要 加 入 一 些 额外 的 补 齐 (padding) 字 节 来 保证 结构 体 与 C++ 的 结构 体 一 致 。 汇 
编 语言 函数 SseSfpParallelograms_ 使 用 一 个 循环 来 计算 每 个 平行 四 边 形 的 未 知 数值 。 在 这 个 
循环 的 开始 处 (接近 Loopl 的 地 方 )，sub esp, 8 语句 在 堆栈 上 创建 了 一 个 8 字 节 的 空间 ， 用 
于 存储 一 个 将 来 会 用 到 的 双 精 度 浮 点 数 函 数 参 数 。 这 个 循环 每 次 执行 时 ， 都 先 通过 一 系列 
comisd 指令 zd t xc， 并 配合 一 系列 条 件 跳 转 指令 来 控制 运行 逻辑 。 当 所 有 这 三 个 参 
数 都 通过 验证 后 ， 就 会 计算 并 保存 5 角 的 值 。 

Fo Pi pr 我 们 先 把 a 从 角度 值 转换 成 弧度 值 ， 然 后 用 movsd real8 ptr [ebp- 
16], xmm2 指令 把 转换 后 的 弧度 值 保 存在 局 部 堆栈 上 以 备 将 来 使 用 。a 的 角度 值 同时 被 保存 
在 堆栈 上 (通过 movsd real8 ptr [esp], xmm2 指令 )。 接 下 来 就 是 调用 C++ FE RHI call sin 

指令 计算 sin(a) 的 值 。 需 要 注意 的 是 ， 与 x87 FPU 不 同 ，x86-SSE 没有 提供 类 似 于 fsin 和 
fcos 这 样 的 高 级 指令 。 依 照 Visual C++ 的 调用 约定 ，sin 函数 的 返回 值 被 保存 在 x87 FPU 寄 
存 器 栈 上 ， 于 是 我 们 通过 fstp real8 ptr[ebp-8] 指令 把 sin(a) 的 结果 拷贝 到 局 部 堆栈 变量 ， 并 
把 它 从 x87 FPU 的 寄存 器 栈 上 移 除 掉 。 需 要 特别 注意 的 是 ，Visual C++ 的 32 位 程序 的 调用 
约定 把 所 有 XMM 寄存 器 都 认为 是 易 变 的 ， 这 意味 着 在 执行 完 sin 或 其 他 函数 之 后 ，XMM0- 
XMM7 寄存 器 的 值 都 是 不 确定 的 。 

在 计算 完 sin(a) 之 后 ， 平 行 四 边 形 的 高 度 和 面积 便 可 以 轻松 地 计算 出 来 ， 结 果 被 保存 在 
PDATA 结构 里 ( EBX 指向 的 数据 位 置 )。 再 之 后 我 们 调用 C++ JERR cos 计算 cos(a), fk 
后 , P 和 Q 的 长 度 也 就 可 以 计算 出 来 了 。 注 意 , RP AQ 都 需要 的 公共 子 表 达 式 只 要 计算 
一 次 。 所 有 循环 变量 在 Nextltem 后 的 代码 块 中 进行 更 新 。 在 所 有 循环 处 理 结束 后 和 函数 结 
语 之 前 ，ESP 寄存 器 需要 被 还 原 到 适当 的 值 (通过 add esp，8 指令 )。 输 出 8-5 显示 了 示例 

程序 SseScalarFloatingPointParallelograms 的 执行 结果 


输出 8-5 ”示例 程序 SseScalarFloatingPointParallelograms 
ar eld - BadValue = 1 


-1.000000 B: 1.000000 
aipha: 60.000000 Beta: -1.000000 
-1.000000 Area: -1.000000 
* -1.000000 0: -1.000000 


d cm - BadValue - 1 


1.000000 B: -1.000000 
- 60.000000 Beta: -1.000000 
H: -1.000000 Area: -1.000000 
ps -1.000000 0: -1.000000 


KS - BadValue - 1 


1.000000 B: 1.000000 
‘iva: 181.000000 Beta: -1.000000 
H: -1.000000 Area: -1.000000 
Pi -1.000000 Q: -1.000000 


PEU" BadValue = 0 
1.000000 B: 1.000000 
-—- 90.000000 Beta: 90.000000 
H: 1.000000 Area: 1.000000 
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P: 1.414214 Q: 
pdata[4] - BadValue - O 

A: 3.000000 B: 

Alpha: 90.000000 Beta: 

H: 3.000000 Area: 

Ps 5.000000 Q: 


pdata[5] - BadValue = 0 


A: 2.000000 B: 
Alpha: 30.000000 Beta: 
H: 1.000000 Area: 
P: 1.614836 Q: 
pdata[6] - BadValue = 0 
A: 3.000000 B: 
Alpha: 60.000000 Beta: 
H: 2.598076 Area: 
Bs 2.645751 0: 
pdata[7] - BadValue - O 
A: 4.000000 B: 
Alpha: 120.000000 Beta: 
H: 3.464102 Area: 
Ps 5.678908 0: 


pdata[8] - BadValue = 0 


A: 5.000000 B: 
Alpha: 135.000000 Beta: 
H: 3.535534 Area: 
P: 11.231517 0: 


pdata[9] - BadValue = 0 
A: 8.000000 B: 


Alpha: 165.000000 Beta: 
H: 2.070552 Area: 


P: 15.863118 Q: 


8.3 总 结 


在 本 章 ， 我 们 学 习 了 如 何 使 用 x86-SSE 指令 集 进 行 基本 的 标量 浮 点 算术 运算 ， 同 时 通 
过 几 个 示例 程序 学 习 了 一 些 高 级 的 x86-SSE 标量 浮 点 计算 技术 。 在 下 一 章 ， 我 们 将 继续 学 习 
x86-SSE 汇编 语言 编程 技术 ， 重 点 将 集中 在 x86-SSE 的 组 合 浮 点 运算 能 力 。 


1.414214 


4.000000 
90.000000 
12.000000 

5.000000 


3.000000 
150.000000 
3.000000 
4.836559 


2.000000 
120.000000 
5.196152 
4.358899 


2.500000 
60.000000 
8.660254 
3.500000 


7.125000 
45.000000 
25.190679 

5.038280 


8.000000 
15.000000 
16.564419 

2.088419 
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第 9 登 | 


Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


x86-SSE 编程 一 一 组 合 浮 点 


ERE, 我们 将 学 习 如 何在 汇编 语言 函数 中 操纵 x86-SSE 的 组 合 浮 点 资源 。 我 们 先 通 
过 几 个 示例 程序 学 习 基本 的 x86-SSE 组 合 浮 点 运算 ,包括 基本 的 算术 运算 、 比 较 以 及 数据 类 
型 转换 ， 在 其 后 一 节 我 们 将 通过 示例 来 学 习 使 用 x86-SSE 指令 对 更 复杂 的 组 合 单 精度 和 组 合 
双 精 度数 进行 计算 。 

本 章 的 示例 代码 演示 了 x86-SSE 的 不 同 版 本 。 每 个 汇编 语言 函数 的 头 部 列 出 了 所 需 的 
版 本 号 。 附 录 C 列 出 了 一 些 免费 工具 ， 这 些 工具 可 以 帮助 你 检测 你 的 PC 中 处 理 器 和 操作 系 
统 所 能 支持 的 x86-SSE 版 本 。 


9.1 合 浮 点 运算 基础 

本 节 的 示例 代码 将 演示 如 何 进行 基本 的 组 合 浮 点 运算 ,包括 基本 的 算术 运算 、 比 较 和 
类 型 转换 。 本 章 的 几 个 示例 都 用 到 了 XmmVal 这 个 C++ 联合 体 来 帮助 在 C++ 和 汇编 语言 函 
数 之 间 交 换 数据 ( 见 清 单 9-1 )。 该 联合 体内 的 各 成 员 对 应 于 x86-SSE 所 支持 的 各 种 组 合 数 
据 类 型 。 联 合体 XmmVal 还 包含 一 些 文本 字符 串 格式 化 函数 的 声明 。XmmVal.cpp 包含 了 
ToString 格式 化 函数 的 定义 ， 该 文件 清单 未 在 本 书 中 列 出 ， 读 者 可 以 在 代码 包 的 Common- 
Files FHR FRIJE, 


清单 9-1 XmmVal.h 


#pragma once 
#include "MiscDefs.h" 


union XmmVal 

{ 
Int8 i8[16]; 
Int16 i16[8]; 
Int32 i32[4]; 
Int64 i64[2]; 
Uint8 u8[16]; 
Uint16 u16[8]; 
Uint32 u32[4]; 
Uint64 u64[2]; 
float r32[4]; 
double r64[2]; 


char* ToString i8(char* s, size t len); 
char* ToString ii6(char* s, size t len); 
char* ToString i32(char* s, size t len); 
char* ToString i64(char* s, size t len); 


char* ToString u8(char* s, size t len); 

char* ToString ui6(char* s, size t len); 
char* ToString u32(char* s, size t len); 
char* ToString u64(char* s, size t len); 
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char* ToString x8(char* s, size t len); 

char* ToString xi6(char* s, size t len); 
char* ToString x32(char* s, size t len); 
char* ToString x64(char* s, size t len); 


char* ToString r32(char* s, size t len); 
char* ToString r64(char* s, size t len); 


) 


9.1.1 组 合 浮 点 算术 运算 


第 一 个 x86-SSE 组 合 
了 如 何 对 x86-SSE 组 合 浮 点 操作 数 进 和 
应 的 C++ 和 x86-32 汇编 语言 源 代码 。 


清单 9-2 SsePackedFloatingPointArithmetic.cpp 


#include "stdafx.h" 
#include "XmmVal.h" 
#define USE MATH DEFINES 
#include «math.h» 


extern "C" void SsePackedFpMath32 (const XmmVal* a, const XmmVal* b, XmmVal c[8]); 
extern "C" void SsePackedFpMath64 (const XmmVal* a, const XmmVal* b, XmmVal c[8]); 


void SsePackedFpMath32(void) 

( 
_declspec(align(16)) XmmVal a; 
_declspec(align(16)) XmmVal b; 
_declspec(align(16)) XmmVal c[8]; 
char buff[256]; 


36.0f; 
(float)(1.0 / 32.0); 
2.0f; 
42.0f; 


fo £f) tU t 
H 
Ww 
N 
一 
e 
md d eid al 


-(float)(1.0 / 9.0); 
64.0f; 

-0.0625f; 

8.666667f; 


coc cc 
ce ew 


"ow ow ow 


SsePackedFpMath32_(&a, &b, c); 
printf("\nResults for SsePackedFpMath32_\n"); 


浮 点 示例 程序 是 SsePackedFloatingPointArithmetic. ix 
J 基本 的 算术 运算 。 清 单 9-2 和 清单 9-3 分 别 列 出 了 相 
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程序 展示 


} 


printf("a 
printf("b: 
printf("\n"); 
printf("addps: 
printf("subps: 
printf("mulps: 
printf("divps: 
printf("absps a: 


printf("sqrtps a: 


printf("minps: 
printf("maxps: 


AsWn", a.ToString r32(buff, sizeof(buff))); 
%s\n", b.ToString r32(buff, sizeof(buff))); 


%s\n", c[0].ToString r32(buff, 
XsNn", c[1].ToString r32(buff, 
%s\n", c[2].ToString r32(buff, 
%s\n", c[3].ToString r32(buff, 
%s\n", c[4].ToString r32(buff, 
*sWn", c[5].ToString r32(buff, 
4sNn", c[6].ToString r32(buff, 
%s\n", c[7].ToString r32(buff, 


void SsePackedFpMath64(void) 


{ 


sizeof(buff))); 
sizeof(buff))); 
sizeof(buff))); 
sizeof(buff))); 
sizeof(buff))); 
sizeof(buff))); 
sizeof(buff))); 
sizeof(buff))); 
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_declspec(align(16)) XmmVal a; 
_declspec(align(16)) XmmVal b; 
_declspec(align(16)) XmmVal c[8]; 
char buff[256]; 


a.r64[0] = 2.0; 
a.r64[1] = M PI; 
b.r64[0] = M E; 
b.r64[1] = -M 1 PI; 


SsePackedFpMath64 (&a, Bb, c); 
printf("\nResults for SsePackedFpMath64 n"); 
printf("a: %s\n", a.ToString r64(buff, sizeof(buff))); 

239 printf("b: %s\n", b.ToString r64(buff, sizeof(buff))); 
printf(" in"); 
printf("addpd: %s\n", c[0].ToString r64(buff, sizeof(buff))); 
printf("subpd: %s\n", c[1].ToString r64(buff, sizeof(buff))); 
printf("mulpd: %s\n", c[2].ToString r64(buff, sizeof(buff))); 
printf("divpd: #s\n", c[3].ToString r64(buff, sizeof(buff))); 
printf("abspd a: %s\n", c[4].ToString r64(buff, sizeof(buff))); 
printf("sqrtpd a: %s\n", c[5].ToString r64(buff, sizeof(buff))); 
printf("minpd: *sNn", c[6].ToString r64(buff, sizeof(buff))); 
printf("maxpd: %s\n", c[7].ToString r64(buff, sizeof(buff))); 


) 
int tmain(int argc, TCHAR* argv[]) 
{ 
SsePackedFpMath32() ; 
SsePackedFpMath64 () ; 
) 


清单 9-3 SsePackedFloatingPointArithmetic .asm 


.model flat,c 
.const 


> 用 于 计算 浮 点 绝对 值 的 掩 码 值 
align 16 
Pfp32Abs dword 7fffffffh,7fffffffh,7fffffffh,7fffffffh 
Pfp64Abs qword 7fffffffffffffffh,7fffffffffffffffh 
.code 


; extern "C" void SsePackedFpMath32 (const XmmVal* a, const XmmVal* b,« 
XmmVal c[8]); 


; 函数 说 明 ， 演示 基本 的 组 合 单 精度 浮 点 数学 计算 


3 SSE 版 本 : SSE 
SsePackedFpMath32 proc 


push ebp 
mov ebp,esp 


; 加 载 组 合 单 精度 浮 点 型 数据 


mov eax, [ebp+8] ;eax = 'a' 
mov ecx, [ebp+12] 3ecx = 'b' 
mov edx, [ebp+16] ;edx = 'c' 
movaps xmm0, [eax] ;xmmo = *a 
movaps xmm1, [ecx] ;xmm1 = *b 


; 组 合 单 精 度 浮 点 型 加 法 
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movaps xmm2,xmmO 
addps xmm2,xmm1 
movaps [edx«0],xmm2 


; 组 合 单 精度 浮 点 型 减法 
movaps xmm2,xmmo 
subps xmm2,xmm1 
movaps [edx«16],xmm2 


; 组 合 单 精度 浮 点 型 乘法 
movaps xmm2,xmmO 
mulps xmm2,xmm1 
movaps [edx+32] ,xmm2 


; 组 合 单 精度 浮 点 型 除法 
movaps xmm2,xmmo 
divps xmm2,xmmi 
movaps [edx+48] ,xmm2 


; 取 组 合 单 精度 浮 点 型 数值 绝对 值 
movaps xmm2,xmmO 
andps xmm2,xmmword ptr [Pfp32Abs] 
movaps [edx+64],xmm2 


; 计算 组 合 单 精度 浮 点 型 数值 平方 根 
sqrtps xmm2,xmmO 
movaps [edx+80] ,xmm2 


; 取 组 合 单 精度 浮 点 数 的 最 小 值 
movaps xmm2,xmmO 
minps xmm2,xmmi 
movaps [edx«96],xmm2 


; 取 组 合 单 精度 浮 点 数 的 最 大 值 
maxps xmmO, xmm1 
movaps [edx+112],xmmo 


pop ebp 
ret 
SsePackedFpMath32_ endp 


; extern "C" void SsePackedFpMath64 (const XmmVal* a, const XmmVal* b, = 
XmmVal c[8]); 


; 函数 说 明 。 演 示 基 本 的 组 合 双 精 度 浮 点 数学 计算 


j SSE 版 本 : SSE2 241 


SsePackedFpMath64 proc 
push ebp 
mov ebp,esp 


; 加 载 组 合 双 精度 浮 点 型 数据 


mov eax,[ebp+8] ;eax = 'a' 
mov ecx, [ebp+12] jeck s "b! 
mov edx, [ebp+16] jedx = "c' 
movapd xmmo, [eax] ;xmmo = *a 
movapd xmm1, [ecx] ;xmm1 = *b 


; 组 合 双 精度 浮 点 型 加 法 
movapd xmm2,xmmO 
addpd xmm2,xmm1 
movapd [edx+0],xmm2 


3 
o 
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组 合 双 精度 浮 点 型 减法 
movapd xmm2,xmmo 
subpd xmm2,xmmi 
movapd [edx«16],xmm2 


we 


组 合 双 精 度 浮 点 型 乘法 
movapd xmm2,xmmo 
mulpd xmm2,xmm1 
movapd [edx+32] ,xmm2 


we 


组 合 双 精度 浮 点 型 除法 
movapd xmm2,xmmo 
divpd xmm2,xmm1i 
movapd [edx+48] ,xmm2 
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取 组 合 双 精 度 浮 点 数 的 绝对 值 
movapd xmm2,xmmo 
andpd xmmo,xmmword ptr [Pfp64Abs] 
movapd [edx464],xmm2 


ET 


; 取 组 合 双 精度 浮 点 数 的 平方 根 
sqrtpd xmm2,xmmO 
movapd [edx+80] ,xmm2 


取 组 合 双 精 度 浮 点 数 的 最 小 值 
movapd xmm2,xmmo 
minpd xmm2,xmmi 
movapd [edx+96] ,xmm2 


we 


取 组 合 双 精度 浮 点 数 的 最 大 值 
maxpd xmmo,xmm1 
movapd [edx«112],xmmo 


v. 


pop ebp 

ret 
SsePackedFpMath64  endp 

end 





C++ 源 文件 SsePackedFloatingPointArithmetic.cpp (JL jit 9-2 ) 包含 一 个 名 为 SsePacked- 
FpMath32 的 函数 ， 这 个 函数 定义 了 一 组 XmmVal 实例 ， 并 用 组 合 单 精度 浮 点 数 初始 化 这 些 
实例 。 请 注意 ， 这 些 XmmVal 变量 是 通过 使 用 Visual C++ 的 扩展 属性 _declspec(align(16)) 定 
义 的 ， 这 使 它们 都 是 按 16 字 节 对 齐 的 。 汇 编 语 言 函数 SsePackedFpMath32_ 执行 组 合算 术 计 
算 并 把 结果 返回 到 指定 的 数组 ， 最 后 把 结果 显示 出 来 。SsePackedFpMath64 和 SsePacked- 
FpMath64 执行 一 系列 类 似 的 操作 ， 但 针对 的 是 组 合 双 精 度 浮 点 数 。 

SsePackedFpMath32 和 SsePackedFpMath64 函数 定义 在 SsePackedFloatingPointArith- 
metic .asm 里 。 这 两 个 函数 演示 了 通用 x86-SSE 组 合 单 精度 浮 点 和 组 合 双 精度 浮 点 指令 的 
用 法 。 请 注意 movaps (Move Aligned Packed Single-Precision) 和 movapd ( Double-Precision 
Floating-Point Value) 这 两 个 指令 要 求 源 操作 数 和 目标 操作 数 在 内 存 里 要 16 字 节 对 齐 。MXCSR.RC 
的 舍 人 模式 同样 适用 于 组 合 浮 点 算术 运算 。 输 出 9-1 显示 了 执行 SsePackedFloatingPoint- 
Arithmetic 的 结果 。 


输出 9-1 示例 程序 SsePackedFloatingPointArithmetic 


Results for SsePackedFpMath32 
a: 36.000000 0.031250 | 2.000000 42.000000 
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b: -0.111111 64.000000 | -0.062500 8.666667 
addps: 35.888889 ^ 64.031250 | 1.937500 ^ 50.666668 
subps: 36.111111 -63.968750 | 2.062500 33.333332 
mulps: -4.000000 2.000000 | -0.125000 364.000000 
divps: -324.000000 0.000488 | -32.000000 4.846154 
absps a: 36.000000 0.031250 | 2.000000 ^ 42.000000 
sqrtps a: 6.000000 0.176777 | 1.414214 6.480741 
minps: -0.111111 0.031250 | -0.062500 8.666667 
maxps: 36.000000 64.000000 | 2.000000 4 42.000000 
Results for SsePackedFpMath64 

a: 2.000000000000 | 3.141592653590 

b: 2.718281828459 | -0.318309886184 

addpd: 4.718281828459 | 2.823282767406 

subpd: -0.718281828459 | 3.459902539774 

mulpd: 5.436563656918 | -1.000000000000 

divpd: 0.735758882343 | -9.869604401089 

abspd a: 2.000000000000 | 3.141592653590 

sqrtpd a: 1.414213562373 | 1.772453850906 

minpd: 2.000000000000 | -0.318309886184 

maxpd: 2.718281828459 | 3.141592653590 

9.1.2 组 合 浮 点 数 的 比较 


在 第 8 章 我 们 学 习 了 通过 comiss 和 comisd 指令 分 别 对 标量 单 精 度 浮 点 数 和 标量 双 精 度 浮 
点 数 进 行 比 较 的 方法 ， 在 本 章 我 们 将 学 习 通 过 cmpps 和 cmppd (组 合 单 精度 和 双 精 度 浮 点 
比较 ) 这 两 条 指令 对 两 个 组 合 浮 点 数 进行 SIMD 比较 。 同 样 ， 它 们 通过 载 人 一 个 双 字 的 掩 码 值 
到 XMM 寄存 器 报告 比较 结果 ， 而 不 是 通过 设置 EFLAGS 寄存 器 的 状态 位 来 报告 。 

与 标量 浮 点 数 比 较 不 同 的 是 ,组合 浮 点 数 比较 指令 ( cmpps 和 cmppd) 还 需 
作 数 来 表示 比较 类 型 。 这 两 个 指令 的 语法 如 下 : 

cmppX CmpOpl, CmpOp2, PredOp 

其 中 cmppX 指 cmpps 或 cmppd ; CmpOpl 是 第 一 个 源 操作 数 且 必须 是 一 个 XMM 寄存 器 ; 
CmpOp2 是 第 二 个 源 操作 数 ， 可 以 是 一 个 XMM 寄存 器 或 者 是 在 内 存 中 的 一 个 128 位 的 组 合 操 作 
数 ; PredOp 是 一 个 立即 数 ， 用 于 指定 比较 运算 的 类 型 。 表 9-1 列 出 了 x86-SSE 支持 的 所 有 8 种 
类 型 。 组 合 比较 的 结果 以 一 个 双 字 掩 码 保存 在 CmpOpl E, MAX 1 的 位 表示 比较 结果 为 true, 
为 0 的 位 表示 比较 结果 为 false。 考 虑 到 使 用 立即 数 表示 比较 类 型 不 便 记 忆 ， 多 数 汇编 编译 器 ( 包 
括 MASM) 通过 一 系列 伪 指 令 来 提高 代码 的 可 读 性 。 表 9-1 列 出 了 各 比较 类 型 码 对 应 的 伪 指 令 。 


= 个 操 


需要 第 三 


表 9-1 cmpps 和 cmppd 指令 的 比较 类 型 信息 
类 型 码 类 m 说 明 伪 指 令 

0 EQ CmpOpl == CmpOp2 cmpeqp(s|d) 

1 LT CmpOp1 < CmpOp2 cmpltp(s|d) 

2 LE CmpOp! <= CmpOp2 cmplep(s|d) 

3 UNORD CmpOp! && CmpOp?2 are unordered cmpunordp(s|d) 
4 NEQ !(CmpOpl == CmpOp2) cmpneqp(s|d) 

5 NLT !(CmpOpl < CmpOp2) empnitp(s|d) 

6 NLE !(CmpOpl <= CmpOp2) cmpnlep(s|d) 

ie ORD CmpOp! && CmpOp2 are ordered cmpordp(s|d) 
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请 注意 ， 表 9-1 里 的 NLT (不 小 于 ) 谓词 与 GE (大 于 或 等 于 ) 相同 ,NLE (不 小 于 或 等 于 ) 
5 GT (大 于 ) 相同 。 

图 9-1 描述 了 指令 cmpps xmm0, xmml, 0 (或 cmpeqps xmm0, xmm1) 的 执行 。 在 这 
个 例子 中 ， 保 存在 XMM0 里 的 单 精度 浮 点 数 与 保存 在 XMMI 里 的 单 精 度 浮 点 数 进行 比 
较 ， 判 断 它们 是 否 相 等 。 如 果 相 等 ， 则 0xFFFFFFFF 会 被 写 人 XMM0 的 相应 人 位置， 否则 
0x00000000 会 被 写 人 XMM0 的 相应 位 置 。 


cmpps xmm0,xmm1,0 (或 cmpeqps xmm0, xmm1) 


4.125 2.375 44,125 xmml 
8.625 2.375 15.875 xmm0 


we camo 


图 9-1 cmpps 指令 的 执行 





示例 程序 SsePackedFloatingPointCompare 演示 了 使 用 cmpps 和 cmppd 指令 进行 组 合 浮 
点 数 比较 的 方法 。 清 单 9-4 和 清单 9-5 分 别 列 出 了 相应 的 C++ 和 x86-32 汇编 语言 源 代 码 。 


清单 9-4 SsePackedFloatingPointCompare.cpp 


#include "stdafx.h" 
#include "XmmVal.h" 
#include <limits> 

using namespace std; 


extern "C" void SsePfpCompareFloat (const XmmVal* a, const XmmVal* b, XmmVal c[8]); 
const char* CmpStr[8] - 


"EQ", "iTS "LE"; "UNORDERED" , "NE", "NLT", "NLE", "ORDERED" 
h 


void SsePfpCompareFloat(void) 


. declspec(align(16)) XmmVal a; 

. declspec(align(16)) XmmVal b; 

. declspec(align(16)) XmmVal c[8]; 
char buff[256]; 


a.r32[0] = 2.0; b.r32[0] = 1.0; 
4.732[1] = 7.0; b.r32[1] = 12.0; 
a.r32[2] = -6.0; b.r32[2] = -6.0; 
a.r32[3] = 3.0; b.r32[3] = 8.0; 


for (int i = 0; i« 2; i++) 


if (i 5i) 
a.r32[0] = numeric limits«float»::quiet NaN(); 


SsePfpCompareFloat (8a, &b, c); 

printf("\nResults for SsePfpCompareFloat (Iteration %d)\n", i); 
printf("a: %s\n", a.ToString r32(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString r32(buff, sizeof(buff))); 
printf("\n"); 


for (int j = 0; j < 8; j++) 
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{ 
char* s = c[j].ToString x32(buff, sizeof(buff)); 
printf("%10s: %s\n", CmpStr[j], s); 
) 
} 
int _tmain(int argc, _TCHAR* argv[]) 
{ 
SsePfpCompareFloat(); 
return 0; 
} 


清单 9-5 SsePackedFloatingPointCompare_.asm 


.model flat,c 
.Code 


; extern "C" void SsePfpCompareFloat (const XmmVal* a, const XmmVal* b,« 
XmmVal c[8]); 


; 函数 说 明 : 下面 的 代码 将 演示 cmpps 的 使 用 方法 
3 SSE 版 本 : SSE2 
SsePfpCompareFloat proc 


push ebp 
mov ebp,esp 


mov eax, [ebp+8] ;eax = 'a' 的 位 置 

mov ecx, [ebp+12] ;ecx = 'b' 的 位 置 

mov edx, [ebp+16] ;edx = 'c' 的 位 置 

movaps xmmo, [eax] ;把 'a' 载 入 到 xmm0 

movaps xmm1, [ecx] 372 'b' 载 入 到 xmm 
; 等 于 比较 


movaps xmm2,xmmo 
cmpeqps xmm2,xmmi 
movdqa [edx] ,xmm2 


; 小 于 比较 
movaps xmm2,xmmO 
cmpltps xmm2,xmmi 
movdqa [edx«16],xmm2 


; 小 于 或 等 于 比较 
movaps xmm2,xmmO 
cmpleps xmm2,xmmi 
movdqa [edx«32], xmm2 


; 无 序 (UNORDERD) 比较 
movaps xmm2,xmmO 
cmpunordps xmm2,xmm1 
movdqa [edx+48] ,xmm2 


; 不 等 于 比较 
movaps xmm2,xmmo 
cmpneqps xmm2,xmmi 
movdqa [edx464], xmm2 


; 不 小 于 比较 
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movaps xmm2,xmmO 
cmpnltps xmm2,xmm1i 
movdga [edx+80] ,xmm2 


; 不 小 于 或 等 于 比较 
movaps xmm2,xmmO 
cmpnleps xmm2,xmmi 
movdqa [edx+96] ,xmm2 


(ORDERED) 比较 

movaps xmm2,xmmO 
cmpordps xmm2,xmm1 
movdqa [edx+112] ,xmm2 


; AF 


pop ebp 

ret 
SsePfpCompareFloat_ endp 

end 


C++ 源 代 码 (清单 9-4 ) 包含 一 个 简单 的 函数 ， 用 于 初始 化 一 组 组 合 浮 点 变量 ， 调 用 
汇编 语言 函数 进行 比较 ， 然 后 打印 结果 。 需 要 稍 加 注意 的 是 ,在 第 二 次 for 循环 时 ， 为 
了 验证 有 序 和 无 序 比 较 操 作 是 否 正确 ，NaN pipi 到 XmmVal 4E 5t a; iL Zi ri PR 
SsePfpCompareFloat (清单 9-5) 先是 把 组 合 浮 点 变量 a All b 分别 载 人 寄存 器 XMM0 和 
XMM1， 然 后 依次 执 和 SA Sa SOLAR HERMAN 吉 果 保存 到 相应 的 数组 里 。 汇 编 语言 函数 
使 用 了 比较 伪 指 令 以 便 提高 代码 的 可 读 性 (强烈 建议 读者 使 用 伪 指 令 ， 要 知道 ，x86-AVX 
版 本 的 cmpps 支持 32 种 比较 类 型 ， 而 不 是 像 x86-SSE 只 支持 8 种， 要 记 住所 有 32 种 类 
型 实在 是 很 有 挑战 的 ) 。 输 出 9-2 显示 了 示例 程序 SsePackedFloatingPointCompare 的 执行 
结果 。 


输出 9-2 SsePackedFloatingPointCompare 
Results for SsePfpCompareFloat_ (Iteration 0) 





a: 2.000000 7.000000 | -6.000000 3.000000 
b: 1.000000 12.000000 | -6.000000 8.000000 
EQ: 00000000 00000000 | FFFFFFFF 00000000 
LT: 00000000 FFFFFFFF | 00000000 FFFFFFFF 
LE: 00000000 FFFFFFFF | FFFFFFFF FFFFFFFF 
UNORDERED: 00000000 00000000 | 00000000 00000000 

NE: FFFFFFFF FFFFFFFF | 00000000 FFFFFFFF 
NLT: FFFFFFFF 00000000 | FFFFFFFF 00000000 
NLE: FFFFFFFF 00000000 | 00000000 00000000 
ORDERED: FFFFFFFF FFFFFFFF | FFFFFFFF FFFFFFFF 


Results for SsePfpCompareFloat (Iteration 1) 


a: 1.#QNANO 7.000000 | -6.000000 3.000000 
b: 1.000000 12.000000 | -6.000000 8.000000 
EQ: 00000000 00000000 | FFFFFFFF 00000000 
LT: 00000000 FFFFFFFF | 00000000 FFFFFFFF 
LE: 00000000 FFFFFFFF | FFFFFFFF FFFFFFFF 
UNORDERED: FFFFFFFF 00000000 | 00000000 00000000 

NE: FFFFFFFF FFFFFFFF | 00000000 FFFFFFFF 
NLT: FFFFFFFF 00000000 | FFFFFFFF 00000000 
NLE: FFFFFFFF 00000000 | 00000000 00000000 
ORDERED: 00000000 FFFFFFFF | FFFFFFFF FFFFFFFF 
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9.1.3 组合 浮 点 数 的 类 型 转换 

下 一 个 x86-SSE 组 合 浮 点 示例 程序 是 SsePackedFloatingPointConversions。 这 个 程序 演示 
了 如 何 把 一 个 组 合 双 字 有 符号 整数 转换 成 一 个 组 合 单 精度 浮 点 数 或 组 合 双 精 度 浮 点 数 以 及 反 
向 转换 。 它 同时 演示 了 组 合 单 精 度 浮 点 数 和 组 合 双 精度 浮 点 数 之 间 的 相互 转换 。 清 单 9-6 和 清 
单 9-7 分 别 显 示 了 示例 程序 SsePackedFloatingPointConversions 的 C++ 和 汇编 语言 的 源 代 码 。 


清单 9-6 SsePackedFloatingPointConversions.cpp 
#include "stdafx.h" 
#include "XmmVal.h" 
#define USE MATH DEFINES 
#include «math.h» 


// CvtOp 成 员 的 顺序 必须 与 SsePackedFloatingPointConversions_.asm 中 定义 的 相 一 致 
enum CvtOp : unsigned int 


{ 
Cvtdq2ps, // 组 合 有 符号 双 字 ==> 组 合 单 精度 浮 点 数 
Cvtdq2pd, // 组 合 有 符号 双 字 ==> 组 合 双 精 度 浮 点 数 
Cvtps2dq, // 组 合 单 精度 浮 点 数 ==> 组 合 有 符号 双 字 
Cvtpd2dq， // 组 合 双 精度 浮 点 数 ==> 组 合 有 符号 双 字 
Cvtps2pd, // 组 合 单 精度 浮 点 数 ==> 组 合 双 精度 浮 点 数 
Cvtpd2ps // 组 合 双 精度 浮 点 数 ==> 组 合 单 精度 浮 点 数 

h 


extern "C" void SsePfpConvert (const XmmVal* a, XmmVal* b, CvtOp cvt op); 


void SsePfpConversions32(void) 

( 
_declspec(align(16)) XmmVal a; 
 declspec(align(16)) XmmVal b; 
char buff[256]; 


a.i32[0] = 10; 
a.i32[1] = -500; 
a.i32[2] = 600; 


a.i32[3] = -1024; 

SsePfpConvert (&a, &b, CvtOp::Cvtdq2ps); 
printf("\nResults for CvtOp::Cvtdq2ps Yn"); 

printf(" a: %s\n", a.ToString i32(buff, sizeof(buff))); 
printf(" b: %s\n", b.ToString r32(buff, sizeof(buff))); 


a.r32[0] = 1.0f / 3.0f; 
a.r32[1] = 2.0f / 3.0f; 
a.r32[2] = -a.r32[0] * 2.0f; 


a.r32[3] = -a.r32[1] * 2.0f; 

SsePfpConvert (Ba, &b, CvtOp::Cvtps2dq); 
printf("\nResults for CvtOp::Cvtps2dqWn"); 

printf(" a: %s\n", a.ToString r32(buff, sizeof(buff))); 
printf(" b: %s\n", b.ToString i32(buff, sizeof(buff))); 


// cvtps2pd 转换 a 的 两 个 低位 双 精 度 浮 点 值 
a.r32[0] = 1.0f / 7.0f; 


a.r32[1] = 2.0f / 9.0f; 
a.r32[2] = 0; 
a.132[3] = 0; 


SsePfpConvert (&a, &b, CvtOp::Cvtps2pd); 
printf("\nResults for CvtOp::Cvtps2pd\n"); 

printf(" a: %s\n", a.ToString r32(buff, sizeof(buff))); 
printf(" b: XsWn", b.ToString r64(buff, sizeof(buff))); 
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) 


void SsePfpConversions64(void) 


.declspec(align(16)) XmmVal a; 
_declspec(align(16)) XmmVal b; 
char buff[256]; 


// cvtdq2pd 转换 a 的 两 个 低位 双 字 整数 

a.i32[0] = 10; 

a.i32[1] = -20; 

a.i32[2] = 0; 

a.i32[3] = 0; 

SsePfpConvert (&a, &b, CvtOp::Cvtdq2pd); 
printf("\nResults for CvtOp::Cvtdq2pd\n") ; 

printf(" a: %s\n", a.ToString i32(buff, sizeof(buff))); 
printf(" b: %s\n", b.ToString r64(buff, sizeof(buff))); 


// cvtpd2dq 把 b 的 两 个 高 位 双 字 设 成 0 

a.r64[0] = MPI; 

a.r64[1] = M E; 

SsePfpConvert (8a, &b, CvtOp::Cvtpd2dq); 
printf("\nResults for CvtOp::Cvtpd2dqWn"); 

printf(" a: %s\n", a.ToString r64(buff, sizeof(buff))); 
printf(" b: %s\n", b.ToString i32(buff, sizeof(buff))); 


// cvtpd2ps 把 b 的 两 个 高 位 单 精度 浮 点 数值 设 成 0 

a.r64[0] = M SORT2; 

a.r64[1] = M SQRT1 2; 

SsePfpConvert (&a, &b, CvtOp::Cvtpd2ps); 
printf("\nResults for CvtOp::Cvtpd2ps\n"); 

printf(" a: %s\n", a.ToString r64(buff, sizeof(buff))); 
printf(" b: %s\n", b.ToString r32(buff, sizeof(buff))); 


250 ) 
int tmain(int argc, TCHAR* argv[]) 
{ 
SsePfpConversions32(); 
SsePfpConversions64(); 
return 0; 
) 


清单 9-7 SsePackedFloatingPointConversions .asm 
.model flat,c 
.code 


; extern "C" void SsePfpConvert (const XmmVal* a, XmmVal* b, CvtOp cvt op); 


; 函数 说 明 ， 演 示 组 合 浮 点 转换 指令 的 使 用 方法 


; SSE 版 本 : SSE2 


SsePfpConvert proc 
push ebp 
mov ebp,esp 


; 加 载 参数 并 确保 cvt op 是 有 效 的 


mov eax, [ebp+8] ;eax = 'a 
mov ecx, [ebp+12] ;ecx = 'b' 
mov edx, [ebp+16] jedx -cvt op 


cmp edx,CvtOpTableCount 
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jae BadCvtOp 
jmp [CvtOpTable«edx*4] 


; 组 合 有 符号 双 字 整数 ==> 组 合 单 精度 浮 点 数 
SseCvtdq2ps: 

movdqa xmmo, [eax] 

cvtdq2ps xmmi,xmmO 

movaps [ecx],xmm1 

pop ebp 

ret 


; 组 合 有 符号 双 字 整 数 ==> 组 合 双 精度 浮 点 数 
SseCvtdq2pd: 

movdga xmmo, [eax] 

cvtdq2pd xmmi,xmmo 

movapd [ecx], xmmi 

pop ebp 

ret 


; 组 合 单 精度 浮 点 数 ==> 组 合 有 符号 双 字 整数 
SseCvtps2dq: 

movaps xmmo, [eax] 

cvtps2dq xmmi,xmmo 

movdqa [ecx] ,xmm1 

pop ebp 

ret 


; 组 合 双 精度 浮 点 数 ==> 组 合 有 符号 双 字 整数 
SseCvtpd2dq: 

movapd xmmo, [eax] 

cvtpd2dq xmm1,xmmO 

movdqa [ecx],xmm1 

pop ebp 

ret 


; 组 合 单 精度 浮 点 数 ==> 组 合 双 精度 浮 点 数 
SseCvtps2pd: 

movaps xmmo, [eax] 

cvtps2pd xmmi,xmmO 

movapd [ecx], xmm1 

pop ebp 

ret 


; 组 合 双 精度 浮 点 数 ==> 组 合 单 精度 浮 点 数 
SseCvtpd2ps: 

movapd xmmo, [eax] 

cvtpd2ps xmmi,xmmo 

movaps [ecx] ,xmm1 

pop ebp 

ret 


BadCvtOp: 


pop ebp 
ret 


; 下 面值 的 顺序 必须 与 SsePackedFloatingPointConversions.cpp 里 定义 的 CvtOp 一 致 


align 4 
CvtOpTable dword SseCvtdq2ps, SseCvtdq2pd, SseCvtps2dq 
dword SseCvtpd2dq, SseCvtps2pd, SseCvtpd2ps 
CvtOpTableCount equ ($ - CvtOpTable) / size dword 
SsePfpConvert endp 
end 


; 跳 转 到 相应 的 转换 处 理 代码 
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C++ 源 文 件 SsePackedFloatingPointConversions.cpp ( 见 清 单 9-6 ) 定义 了 一 个 名 为 CvtOp 
的 枚 举 类 型 ，CvtOp 列举 了 所 有 的 6 种 合法 的 转换 操作 符 。CvtOp 里 的 几 个 枚 举 值 的 名 字 
(以 及 相应 的 汇编 语言 助 记 符 ) 看 起 来 有 些 让 人 困惑 ， 要 注意 其 中 的 dq 代表 有 符号 双 字 整数 
( doubleword signed integer)， 而 不 是 double quadword。 此 外 ， 还 要 注意 : 实际 的 成 员 转 换 依 
赖 于 数据 的 类 型 ， 比 如 CvtOp::Cvtps2pd (或 cvtps2pd 指令 ) 把 两 个 低位 的 单 精 度 浮 点 数 转 
换 成 两 个 双 精 度 浮 点 数 。 在 从 组 合 双 精度 浮 点 数 向 单 精度 浮 点 数 或 双 字 有 符号 整数 转换 时 ， 
目标 操作 数 的 高 位 被 设 成 0。 

汇编 语言 文件 SsePackedFloatingPointConversions asm ( 见 清单 9-7 ) 使 用 了 跳 转 表 来 选 

择 相应 的 转换 指令 。 
在 每 个 执行 类 型 转换 的 代码 块 内 部 ， 指 令 movaps、movapd 或 者 movdqa ( Move Aligned 
Double Quadword， 对 齐 双 四 字 移动 ) Medals ah oy eet 或 者 把 组 合 数据 复 
制 到 内 存 。 这 些 指令 都 需要 内 存 操作 数 在 内 存 中 正确 地 对 齐 。 组 合 转换 指令 使 用 MXCSR 
指定 的 舍 入 模式 ( VisualC++ 采 用 的 缺 省 的 舍 入 模式 是 就 近 舍 人 )。 如 果 非 法 操作 异常 位 
( MXCSR.IM) 被 屏蔽 且 指 定 的 转换 无 法 执行 ， 某 些 组 合 转换 指令 会 设置 非法 操作 标志 位 
(MXCSR.IE)。 输 出 9-3 显示 了 示例 程序 SsePackedFloatingPointConversions 的 执行 结果 


输出 9-3 示例 程序 SsePackedFloatingPointConversions 


Results for CvtOp::Cvtdq2ps 
di 10 -500 | 600 -1024 
b: 10.000000 -500.000000 | 600.000000 -1024.000000 


Results for CvtOp::Cvtps2dq 


a: 0.333333 0.666667 | -0.666667 -1.333333 

b: 0 1| -1 -1 
Results for CvtOp::Cvtps2pd 

a: 0.142857 0.222222 | 0.000000 0.000000 

b: 0.142857149243 | 0.222222223878 


Results for CvtOp::Cvtdq2pd 
a: 10 -20 | 0 0 
b: 10.000000000000 | -20.000000000000 


Results for CvtOp::Cvtpd2dq 


as 3.141592653590 | 2.718281828459 

b: 3 3 | 0 0 
Results for CvtOp::Cvtpd2ps 

a: 1.414213562373 | 0.707106781187 

b: 1.414214 0.707107 | 0.000000 0.000000 


9.2 ”高 级 组 合 浮 点 编程 

本 节 的 示例 程序 将 演示 使 用 x86-SSE 组 合 浮 点 指令 集 对 组 合 单 精度 和 组 合 双 精度 浮 点 
数 进行 高 级 数学 计算 。 第 一 个 示例 程序 将 演示 对 双 精 度 浮 点 数组 进行 SIMD 计算 ， 而 在 第 二 
个 示例 程序 里 ,我们 将 学 习 如 何 使 用 x86-SSE 的 计算 资源 提高 4x4 和 矩阵 操作 算法 的 性 能 。 
9.2.1 合 浮 点 数 最 小 二 乘法 

在 第 4 章 ， 我 们 通过 一 个 示例 程序 学 习 了 通过 x87 FPU 计算 最 小 二 乘法 拟 合 直线 的 
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斜率 和 的 截 距 的 方法 ， 而 本 节 的 示例 程序 SsePackedFloatingPointLeastSquares 将 演示 使 用 
x86-SSE 的 组 合 双 精 度 浮 点 算术 指令 进行 同样 的 计算 。 清 单 9-8 和 清单 9-9 分 别 列 出 了 相应 
的 C++ 和 x86-32 汇编 语言 源 代码 。 


清单 9-8 SsePackedFloatingPointLeastSquares.cpp 


#include "stdafx.h" 
#include “stddef.h> 
#include «math.h» 


extern "C" double LsEpsilon = 1.0e-12; 
extern "C" bool SsePfpLeastSquares (const double* x, const double* y,= 
int n, double* m, double* b); 


bool SsePfpLeastSquaresCpp(const double* x, const double* y, int n,= 
double* m, double* b) 


if (n « 2) 
return false; 


// 确保 x 和 >y 被 正确 对 齐 
if ((((uintptr t)x & oxf) != 0) || (((uintptr t)y & oxf) != 0)) 
return false; 


double sum x = 0, sum y = 0.0, sum xx = 0, sum xy = 0.0; 


for (int i = 0; i < n; ie) 


{ 
sum x += x[i]; 
sum xx 4- x[i] * x[i]; 
sum xy += x[i] * y[i]; 
sum y += y[i]; 

} 


double denom = n * sum_xx - sum_x * sum_x; 
if (fabs(denom) >= LsEpsilon) 
{ 
*m = (n * sum xy - sum x * sum y) / denom; 


*b = (sum xx * sum y - sum x * sum xy) / denom; 
return true; 


) 
else 
( 
*m = *b = 0:0; 
return false; 
} 
} 
int tmain(int argc, _TCHAR* argv[]) 
( 


const int n - 11; 

. declspec(align(16)) double x[n] = (10, 13, 17, 19, 23, 7, 35, 51, 
89, 92, 99); 

. declspec(align(16)) double y[n] = (1.2, 1.1, 1.8, 2.2, 1.9, 0.5, 
3.1, 5.5, 8.4, 9.7, 10.4]; 


double m1, m2, b1, b2; 
bool rci = SsePfpLeastSquaresCpp(x, y, n, &m1, 8b1); 
bool rc2 = SsePfpLeastSquares (x, y, n, &m2, 8b2); 


180 


printf("\nResults from SsePackedFloatingPointLeastSquaresCpp\n") ; 


printf(" rc: %12d\n", rc1); 

printf(" slope: %12.81f\n", m1); 

printf(" intercept: %12.81f\n", b1); 

printf("\nResults from SsePackedFloatingPointleastSquares Wn"); 
printf(" rc: %12d\n", rc2); 

printf(" slope: %12.81f\n", m2); 

printf(" intercept: %12.81f\n", b2); 

return 0; 





清单 9-9 SsePackedFloatingPointLeastSquares_.asm 


.model flat,c 
extern LsEpsilon:real8 
.const 


PackedFp64Abs quord 7fffffffffffffffhy7fffffffffffffffh 


.code 


; extern "C" bool SsePfpLeastSquares (const double* x, const double* y, 
int n, double* m, double* b); 


; 函数 说 明 计算 使 用 最 小 二 乘法 拟 合 直线 的 斜率 和 截 距 


;返回 值 ，0 = 错误 (n 非法 或 者 数组 未 正确 对 齐 ) 


2 
3 


2 


1 = 正确 


; SSE 版 本 : SSE3 


SsePfpLeastSquares proc 


push ebp 
mov ebp,esp 
push ebx 


; 载 入 并 验证 参数 


XOI eax,eax 
mov ebx, [ebp+8] 
test ebx,Ofh 
jnz Done 

mov edx, [ebp+12] 
test edx,Ofh 
jnz Done 

mov ecx, [ebp+16] 
cmp ecx,2 

jl Done 


; 初始 化 求 和 寄存 器 


cvtsi2sd xmm3,ecx 
mov eax,ecx 

and ecx,Offfffffeh 
and eax,1 


xorpd xmm4,xmm4 


; 设置 错误 返回 码 


sebx = "X 


; 如果 x 未 对 齐 跳 转 


;edx ='y 
;如果 y 未 对 齐 跳 转 


;ecx =n 


; 跳 转 ， 如 果 n < 2 


;xmm3 = 双 精 度 浮 点 数 n 


;ecx 
;eax 


"on 
s = 
RN 
NN 


;sum x (四 字 ) 


xorpd xmm5,xmm5 ;sum y (四 字 ) 
xorpd xmm6,xmm6 ;sum xx (=) 
xorpd xmm7,xmm7 ;sum xy (MF) 
; 计算 和 变量 。 每 次 处 理 两 个 值 
90: movapd xmmo,xmmword ptr [ebx] ; 载 入 下 两 个 x 值 
movapd xmmi,xmmword ptr [edx] ; 载 入 下 两 个 y 值 
movapd xmm2,xmmo ; 拷贝 x 


R 


bU 
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subsd xmm3,xmm1 
divsd xmm3,xmmO 
mov edx, [ebp+20] 
movsd real8 ptr [edx],xmm3 


; 计算 并 保存 截 距 
; 截 距 = (sum xx * sum y - sum x * sum xy) / 分 母 


mulsd xmm6,xmm5 
mulsd xmm4,xmm7 
subsd xmm6,xmm4 
divsd xmm6,xmmo 
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;slope numerator 
;xmm3 = 最 终 的 斜率 


;edx = 'm 


; 保存 斜率 


;sum xx * sum y 
;sum x * sum xy 
;intercept numerator 


; xmm6 = 最 终 的 截 距 


addpd xmm4, xmmo ;更 新 sum x 
addpd xmm5, xmm1 ;更 新 sum y 
mulpd xmmo,xmmo ;计算 x * x 256 
addpd xmm6,xmmo ; 更 新 sum xx 
mulpd xmm2,xmmi ;计算 x * y 
addpd xmm7,xmm2 ; 更 新 sum xy 
add ebx,16 ; ebx = 下 一 个 x 数 组 值 
add edx,16 ;edx = F— y 数组 值 
sub ecx,2 ; 调整 统计 数 
jnz @B ; 重复 ， 直 到 全 部 完成 
; 用 最 终 的 x 和 值 更 新 和 变量 ( 当 n 是 奇数 时 ) 
OI eax,eax 
jz CalcFinalSums ; 如果 mn 是 偶数 跳 转 
movsd xmmO,real8 ptr [ebx] ; 载 入 最 终 的 x 
movsd xmm1,real8 ptr [edx] ; 载 入 最 终 的 y 
movsd xmm2,xmmO 
addsd xmm4,xmmO ;更 新 sum x 
addsd xmm5,xmmi ;更 新 sum y 
mulsd xmmo,xmmo ;计算 x * x 
addsd xmm6,xmmO ; 更 新 sum xx 
mulsd xmm2,xmmi 计算 X* y 
addsd xmm7,xmm2 ;更 新 sum xy 
; 计算 最 终 的 和 
CalcFinalSums: 
haddpd xmm4, xmm4 ;xmm4[63:0] = 最 终 的 sum_x 
haddpd xmm5,xmm5 ;xmm5[63:0] = 最 终 的 sum_y 
haddpd xmm6 ,xmm6 ;xmm6[63:0] = 最 终 的 sum_xx 
haddpd xmm7,xmm7 ;xmm7[63:0] = 最 终 的 sum xy 
; 计算 分 母 并 确保 其 合法 
3 = n * sum xx - sum x * sum x 
movsd xmmo,xmm3 ;n 
movsd xmm1, xmm4 ;Sum x 
mulsd xmmO, xmm6 ;n * sum xx 
mulsd xmmi,xmmi ;sum x * sum x 
subsd xmmO,xmm1 ;xmmO = denom 
movsd xmm2,xmmO 
andpd xmm2,xmmword ptr [PackedFp64Abs] ;xmm2 = fabs (分 母 ) 
comisd xmm2,real8 ptr [LsEpsilon] 
jb BadDenom ; 如 果 分 母 《 fabs (分 母 ) 跳 转 
; 计算 并 保存 斜率 
; 斜率 = (n * sum xy - sum x * sum y) /分 母 
movsd xmmi,xmm4 ;sum x 
mulsd xmm3,xmm7 ;n * sum xy 
mulsd xmm1, xmm5 ;sum x * sum y 257 


182 gos 
mov edx, [ebp+24] ;edx = 'b' 
movsd real8 ptr [edx] ,xmm6 ; 保存 截 距 
mov eax,1 ; 正确 返回 码 
Done: pop ebx 
pop ebp 
ret 
; 把 m 和 b 设 成 0 
BadDenom: 
XOr eax,eax ; 设置 错误 返回 码 
mov edx, [ebp+20] ;eax = 'm' 
mov [edx],eax 
mov [edx«4],eax ;*m = 0.0 
mov edx, [ebp+24] ;edx = 'b' 
mov [edx],eax 
mov. [edx«4] ,eax ;*b = 0.0 
jmp Done 


SsePfpLeastSquares_ endp 
end 





C++ 源 程 序 SsePackedFloatingPointLeastSquares.cpp ( 见 清单 9-8 ) 包含 的 C++ 函数 Sse- 
PfpLeastSquaresCpp FH S++ HE E He AY FES A A. PRK tmain 定义 了 x 和 y 两 个 测试 数 
组 ， 这 两 个 数组 使 用 了 扩展 属性 _ declspec(align(16))， 告 诉 编译 器 对 数组 进行 16 字 节 对 齐 。 
_tmain 的 其 他 部 分 调用 最 小 二 乘法 算法 的 两 种 实现 并 把 结果 显示 出 来 。 

汇编 语言 函数 SsePfpLeastSquares ( 见 清单 9-9 ) 首先 验证 数组 长 度 n 和 数组 x、y 是 
否 正确 对 齐 。 指 令 test ebx, 0fh 对 数组 x 的 地 址 与 0x0f 执行 按 位 与 操作 ， 如 果 结 果 非 0， 则 
说 明 数 组 没有 正确 对 齐 。 然 后 对 数组 y 进行 同样 的 验证 。 参 数 验证 之 后 是 一 系列 用 于 初始 
化 的 代码 。cvtsi2sd xmm3, ecx 指令 用 于 把 n 转换 成 双 精 度 浮 点 数 以 便 稍 后 使 用 。and ecx, 
Offfffffeh 指令 把 ECX 的 值 舍 入 到 小 于 它 的 离 它 最 近 的 偶数 ， 且 EAX 被 置 成 0 或 者 1 (依赖 
于 最 初 的 n 是 偶数 还 是 奇数 )。 这 些 调整 是 为 了 保证 对 数组 x 和 y 进行 正确 的 组 合计 算 。 

回忆 一 下 第 4 章 , 为 了 计算 最 小 二 乘法 拟 合 直线 的 斜率 和 截 距 ， 我 们 需要 计算 四 个 中 
间 的 和 : sum x, sum y, sum xx fill sum xy。 在 本 章 的 示例 程序 中 ， 这 几 个 值 是 使 用 组 合 
双 精 度 浮 点 计算 出 来 的 。 这 意味 着 在 每 次 循环 中 ， 我 们 可 以 一 次 处 理 x 和 y 数组 中 的 两 组 数 
值 ， 这 样 循环 次 数 将 减少 一 半 。 数 组 中 下 标 为 偶数 的 成 员 的 和 用 XMM4 ~ XMM7 的 低位 四 
字 计 算 ， 而 下 标 为 奇数 的 成 员 的 和 用 XMM4 ~ XMM7 的 高 位 四 字 计 算 。 

在 进入 计算 总 和 的 循环 之 前 ， 每 个 保存 总 和 的 寄存 器 被 初始 化 为 0 (使 用 xorpd 指令 )。 
在 循环 的 开始 ，movapd xmm0,xmmword ptr[ebx] 指令 分 别 把 x[ 和 x[i+1] 复制 到 XMMO 的 
低位 四 字 和 高 位 四 字 ， 接 下 来 movapd xmml,xmmword ptr[edx] 指令 分 别 把 yli] 和 y[i+1] 复 
制 到 XMMI 的 低位 四 字 和 高 位 四 字 。 之 后 通过 一 系列 的 addpd 和 mulpd 指令 来 计算 组 合 和 
值 并 将 结果 更 新 到 XMM4 ~ XMM7。 然 后 数组 指针 寄存 器 EBX 和 EDX 各 加 16 (两 个 双 精 
度 浮 点 数 的 长 度 )， 同 时 ECX 保存 的 计数 也 被 调整 ， 以 便 进 行 下 一 个 求 和 循环 。 计 算 总 和 的 
循环 完成 之 后 ， 需 要 判断 原始 输入 的 n 是 奇数 还 是 偶数 。 如 果 是 奇数 ，x Aly 数组 的 最 后 一 
个 数 也 要 进行 组 合 和 的 计算 (注意 ， 我 们 在 这 里 使 用 标量 计算 指令 addsd 和 mulsd 来 完成 这 
个 操作 )。 

在 组 合 求 和 完成 之 后 ， 我 们 用 一 系列 haddpd ( Packed Double-FP Horizontal Add， 组 
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合 双 精 度 浮 点 水 平 加 法 ) 指令 来 完成 对 最 终 的 和 的 计算 : sum x. sum y. sum xx 和 
sum xy。 每 个 haddpd DesOp, SrcOp 指令 计算 方法 如 下 : DesOp[63:0] =DesOp[127:64] + 
DesOp[63:0], DesOp[127:64] = SrcOp[127:64] + SrcOp[63:0]。 这 些 haddpd 指令 完成 后 ， 寄 
存 器 XMM4 ~ XMM7 的 低位 四 字 保 存 了 最 终 的 总 和 (这 些 寄存 器 的 高 位 四 字 同 样 也 保存 了 
这 些 总 和 ， 因 为 haddpd 使 用 了 同样 的 源 操作 数 和 目标 操作 数 )。 然 后 要 计算 出 分 母 的 值 ， 并 
对 其 进行 验证 以 确保 它 大 于 等 于 LsEpsilon (小 于 LsEpsilon 的 值 被 认为 太 接近 0， 所 以 为 非 
法 的 值 )。 分 母 被 验证 通过 之 后 ， 就 可 以 使 用 简单 的 x86-SSE 标量 计算 指令 计算 出 斜率 和 截 
距 了 。 输 出 9-4 显示 了 示例 程序 SsePackedFloatingPointLeastSquares 的 执行 结果 。 


输出 9-4 示例 程序 SsePackedFloatingPointLeastSquares 


Results from SsePackedFloatingPointLeastSquaresCpp 
fci 1 
slope: 0.10324631 
intercept: -0.10700632 


Results from SsePackedFloatingPointLeastSquares __ 
res 1 
slope: 0.10324631 
intercept: -0.10700632 





9.22 ”用 组 合 浮 点 数 进行 4x4 矩阵 的 计算 


计算 机 图 形 学 或 计算 机 辅助 设计 程序 之 类 的 应 用 程序 常常 要 进行 大 量 的 矩阵 计算 。 比 
如 ，3D 图 形 软件 经 常 使 用 矩阵 进行 各 种 变换 ， 比 如 转化 、 缩 放 或 旋转 。 在 使 用 齐 次 坐标 时 ， 
这 些 操 作 可 以 用 一 个 4x4 和 矩阵 高 效 地 表示 。 多 次 转换 同样 可 以 通过 甜 阵 乘法 把 一 系列 独立 
的 变换 矩阵 合并 成 一 个 变换 矩阵 。 这 种 合并 后 的 矩阵 常用 于 表示 用 来 定义 3D 模型 的 对 象 顶 
点 的 数组 。 对 3D 计算 机 图 形 软 件 而 言 ， 和 矩阵 乘法 和 矩阵 向 量 乘法 的 计算 性 能 至 关 重 要 ， 因 
为 一 个 3D 模型 通常 包含 成 二 上 万 个 对 象 顶点 。 

两 个 矩阵 的 乘积 定义 如 下 : RE A 是 一 个 mxn 和 矩阵 Cm 和 分 别 代 表 行 数 和 列 数 )， 
ERE B EA nxp HEE, C 是 4 和 B 的 乘积 ， 是 一 个 mxp 抢 阵 。C 的 每 个 成 员 c(i, j) "T 
以 通过 下 面 这 个 公式 计算 : 


Cij — xX aub; i-0, ic^ m-]1; j=0, ses pel 
k 


在 进入 示例 代码 之 前 ， 还 需要 补充 说 明 一 下 : 根据 矩阵 乘法 的 定义 ， 和 矩阵 4 的 列 数 必 
须 等 于 矩阵 如 的 行 数 。 举 例 来 说 ， 如 果 4 是 一 个 3x4 的 矩阵, 召 是 一 个 4x2 的 矩阵 ， 那 
么 乘积 4B (3 x2 和 矩阵 ) 是 可 以 计算 的 ， 而 BA 是 非法 的 ， 无 法 计算 。 同 样 需 要 注意 的 是 ， 
C 的 成 员 c (i,j) 是 矩阵 4 的 守 行 与 矩阵 召 的 7 列 的 简单 的 点 乘 。 下 面 的 示例 程序 会 利用 这 
一 点 使 用 SIMD 算术 指令 进行 矩阵 与 矩阵 和 和 矩阵 与 向 量 的 乘法 计算 。 最 后 ， 与 大 多 数 数学 教 
材 不 同 ， 上 面 的 矩阵 乘法 方程 式 的 下 标 标 识 是 从 0 开始 的 ， 这 样 翻译 成 C++ 和 汇编 语言 代 
码 就 变 得 简单 了 。 

SsePackedFloatingPointMatrix4 x 4 示例 程序 演示 了 如 何 使 用 x86-SSE 指令 集 进 行 4x4 
AB [ERI 4 x 1 向 量 的 矩阵 -和 矩阵 和 和 矩 阵 - 向量 乘法 的 方法 。 清 单 9-10 和 清单 9-11 分 别 包含 
了 SsePackedFloatingPointMatrix4 x 4 的 C++ 和 汇编 语言 源 代码 。 
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清单 9-10 SsePackedFloatingPointMatrix4x4.cpp 


#include "stdafx.h" 
#include "SsePackedFloatingPointMatrix4x4.h" 





// Mat4x4Mul 和 MataxaMulVec 两 个 函数 定义 在 CommonFiles\Mat4x4.cpp 文件 中 
void SsePfpMatrix4x4MultiplyCpp(Mat4x4 m des, Mat4x4 m srci, Mat4x4 m src2) 


Mat4x4Mul(m des, m srci, m src2); 


) 


void SsePfpMatrix4x4TransformVectorsCpp(Vec4x1* v des, Mat4x4 m src,~ 
Vec4x1* v src, int num vec) 
{ 
for (int i= 0; i « num vec; i++) 
Mat4x4MulVec(v des[i], m src, v src[i]); 


) 


void SsePfpMatrix4x4Multiply(void) 

{ 
. declspec(align(16)) Mat4x4 m srci; 
. declspec(align(16)) Mat4x4 m src2; 
. declspec(align(16)) Mat4x4 m desi; 
. declspec(align(16)) Mat4x4 m des2; 


Mat4x4SetRow(m srci, 0, 10.5, 11, 12, -13.625); 
Mat4x4SetRow(m srci, 1, 14, 15, 16, 17.375); 
Mat4x4SetRow(m srci, 2, 18.25, 19, 20.125, 21); 
Matax4SetRow(m srci, 3, 22, 23.875, 24, 25); 


Mat4x4SetRow(m_src2, 0, 7, 1, 4, 8); 
Mat4x4SetRow(m_src2, 1, 14, -5, 2, 9); 
Mat4x4SetRow(m_src2, 2, 10, 9, 3, 6); 
Mat4x4SetRow(m_src2, 3, 2, 11, -14, 13); 


SsePfpMatrix4x4MultiplyCpp(m desi, m srci, m src2); 
SsePfpMatrix4x4Multiply (m des2, m srci, m src2); 


printf("\nResults for SsePfpMatrix4x4Multiply()\n"); 
Mat4x4Printf(m_srci, "\nMatrix m_src1\n"); 
Mat4x4Printf(m_src2, "\nMatrix m_src2\n"); 
Mat4x4Printf(m_desi, "\nMatrix m_desi\n"); 
Mat4x4Printf(m des2, "\nMatrix m_des2\n"); 

} 


void SsePfpMatrix4x4TransformVectors (void) 


const int n = 8; 

. declspec(align(16)) Mat4x4 m src; 

. declspec(align(16)) Vec4x1 v src[n]; 
. declspec(align(16)) Vec4x1 v desi[n]; 
. declspec(align(16)) Vec4x1 v des2[n]; 


Vec4x1Set(v_src[0], 10, 10, 10, 1); 
Vec4x1Set(v_src[1], 10, 11, 10, 1); 
VecaxiSet(v src[2], 11, 10, 10, 1); 
Vec4x1Set(v_src[3], 11, 11, 10, 1); 
Vec4x1Set(v_src[4], 10, 10, 12, 1); 
Vec4x1Set(v_src[5], 10, 11, 12, 1); 
Vec4x1Set(v_src[6], 11, 10, 12, 1); 
Vec4x1Set(v_src[7], 11, 11, 12, 1); 
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// m src = scale(2, 
Mat4x4SetRow(m src, 
Mat4x4SetRow(m src, 
Mat4x4SetRow(m src, 
Mat4x4SetRow(m src, 


SsePfpMatrix4x4TransformVectorsCpp(v desi, m src, v src, n); 
SsePfpMatrix4x4TransformVectors (v des2, m src, v src, n); 


printf("\nResults for SsePfpMatrix4x4TransformVectors() Wn"); 


点 


g 


3， 
0, 
1, 
2, 
3, 


0, 0); 


0); 
0); 
1); 


Mat4x4Printf(m src, "Matrix m_src\n"); 


printf("\n"); 


for (int i = 0; i <n; i++) 


{ 


const char* fmt = "%4s %4d: %12.6f %12.6f %12.6f %12.6f\n"; 
", i, v src[i][o], v src[i][1], v src[i][2], 


printf(fmt, "v s 


v src[i][3]); 


printf(fmt, "v desi ", i, v_desi[i][o], v desi[i][1], v des1[i][2], ~ 


v des1[i][3]); 


printf(fmt, "v des2 ", i, v des2[i][o], v des2[i][1], v des2[i][2], ~ 


v des2[i][3]); 


} 


int tmain(int argc, TCHAR* argv[]) 


( 


vs we vs we 


3 
3 
LI 
, 
3 
3 
3 
3 
, 


printf("\n"); 


SsePfpMatrix4x4Multiply(); 


rc 


SsePfpMatrix4x4TransformVectors(); 


SsePfpMatrix4x4MultiplyTimed(); 


SsePfpMatrix4x4TransformVectorsTimed(); 


return 0; 


清单 9-11 


.model flat,c 
.code 


_Mat4x4Transpose # 


函数 说 明 : 这 个 宏 计 算 4 x 4 单 精度 浮 点 和 矩阵 的 转 置 


输入 和 矩阵 

xmmO a3 a2 a1 a0 
xmm1 b3 b2 b1 bo 
xmm2 C3 c2 c1 cO 
xmm3 d3 d2 di do 


; SSE 版 本 : SSE 


 Mat4x4Transpose macro 


movaps xmm4,xmmO 


unpcklps xmm4,xmmi 
unpckhps xmmO, xmm1 


movaps xmm5 ,xmm2 
unpcklps xmm5,xm 


m3 


unpckhps xmm2,xmm3 


SsePackedFloatingPointMatrix4x4 .asm 


输出 和 矩阵 

Xmm4 dO cO bo a0 
xmm5 di c1 b1 a1 
xmm6 d2 c2 b2 a2 
xmm7 d3 c3 b3 a3 


; 注意 : 4x4 和 矩阵 在 被 载 入 到 XMM 寄存 器 时 ， 由 于 x86 低 字 节 序 原因 ， 每 行 会 被 反 转 


;xmm4 = bl al bo a0 
;xmmo = b3 a3 b2 a2 


;xmm5 


di c1 dO cO 
;xmm2 - d3 c3 d2 c2 
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movaps xmm1,xmm4 


movlhps xmm4,xmm5 ;xmm4 - dO cO bO aO 
movhlps xmm5,xmm1 ;xmm5 = di c1 b1 a1 
movaps xmm6,xmmo 

movlhps xmm6,xmm2 ;xmm6 - d2 c2 b2 a2 
movaps xmm7,xmm2 

movhlps xmm],xmmo ;xmm7 = d3 c3 b2 a3 
endm 


; extern "C" void SsePfpMatrix4x4Multiply (Mat4x4 m des, Mat4x4 m srci,* 
Mat4x4 m src2); 


; 函数 说 明 。 下 面 这 个 函数 用 于 计算 两 个 4 x 4 单 精度 浮 点 矩阵 的 乘积 


j SSE 版 本 : SSE4.1 


SsePfpMatrix4x4Multiply proc 
push ebp 
mov ebp,esp 
push ebx 


; iE m src2 (m src2 T) 的 转 置 
mov ebx, [ebp+16] jebx = m src2 
movaps xmmo, [ebx] 
movaps xmmi, [ebx+16] 
movaps xmm2, [ebx+32] 


movaps xmm3, [ebx+48] ;xmm3:xmmO = m src2 

 Mat4x4Transpose ;xmm7:xmm4 = m src2 T 
; 和 矩阵 乘积 的 初始 化 

mov edx, [ebp+8] jedx = m des 

mov ebx, [ebp+12] ;ebx = m srci 

mov ecx,4 ;ecx = 行 数 

XOr eax,eax ;eax = 数组 偏 移 
; 执行 循环 直到 矩阵 乘积 被 计算 出 来 

align 16 
QQ: movaps xmmo, [ebx«eax] ;xmm0 = m srci 8936 i f7 
; HA m srcis& i fgj5 m src2 T 880 行 的 点 积 

movaps xmm1,xmmO 

dpps xmmi,xmm4, 11110001b ;xmm1[31:0] = 点 积 

insertps xmm3,xmm1,00000000b ;xmm3[31:0] = xmm1[31:0] 
; 计算 m_srcl Sift Sm src2 TT 第 1 行 的 点 积 

movaps xmm2,xmmo 

dpps xmm2,xmm5,11110001b ;xmm2[31:0] = 点 积 

insertps xmm3,xmm2,00010000b ;xmm3[63:32] = xmm2[31:0] 
; iMm srci $i f; 5 m src2 T38 2 行 的 点 积 

movaps xmm1,xmmo 

dpps xmm1,xmm6,11110001b ;xmm1[31:0] = 点 积 

insertps xmm3,xmm1,00100000b ;xmm3[95:64] = xmm1[31:0] 
; 计算 m_srcl 第 守 行 与 mn_src2_T 第 3 行 的 点 积 

movaps xmm2,xmmo 

dpps xmm2,xmm7,11110001b ;xmm2[31:0] = 点 积 

insertps xmm3,xmm2,00110000b ;xmm3[127:96] - xmm2[31:0] 


; 保存 m_des .row i 并 更 新 循环 变量 
movaps [edx+eax] ,xmm3 ; 保存 当前 行 的 结果 
add eax,16 ; 调整 数组 偏 移 ， 使 之 指向 下 一 行 
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dec ecx 
jnz GB 


pop ebx 

pop ebp 

ret 
SsePfpMatrix4x4Multiply endp 
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; extern void SsePfpMatrix4x4TransformVectors (Vec4xi* v des, Mat4x4 m src, 


Vec4x1* v src, int num vec); 


; 函数 说 明 : 下 面 这 个 函数 把 一 个 变换 矩阵 应 用 到 一 个 4 x 1 单 精度 浮 点 向 量 数组 


; SSE 版 本 : SSE4.1 


SsePfpMatrix4x4TransformVectors proc 
push ebp 
mov ebp,esp 
push esi 
push edi 


; 确保 num vec 是 有 效 的 
mov ecx, [ebp+20] 
test ecx,ecx 
jle Done 


; d£ m src 载 入 到 xmm3: xmmO 
mov eax, [ebp+12] 
móvaps xmmO, [eax] 
movaps xmm1, [eax+16] 
movaps xmm2, [eax+32] 
movaps xmm3,[eax+48 ] 


; 初始 化 指向 v_src 和 v_des 的 指针 
mov esi, [ebp+16] 
mov edi,[ebp+8] 
xor eax,eax 


; 计算 : v_des[i] = m src * v src[i] 
align 16 
@@: movaps xmm4,[esit+eax] 


计算 m_src 第 0 行 和 v_src[i] HAR 
movaps xmm5,xmm4 
dpps xmm5,xmmoO,11110001b 
insertps xmm7,xmm5,00000000b 


we 


计算 m_src 第 1 行 和 v_src[i] PAR 
movaps xmm6,xmm4 
dpps xmm6,xmm1,11110001b 
insertps xmm7,xmm6,00010000b 


we 


计算 m_src 第 2 行 和 v_src[i] HAR 
movaps xmm5,xmm4 
dpps xmm5,xmm2,11110001b 
insertps xmm7,xmm5,00100000b 


“ee 


; 计算 m_src 第 3 行 和 v_src[i] HAR 
movaps xmm6,xmm4 
dpps xmm6,xmm3,11110001b 
insertps xmm7,xmm6,00110000b 


,€CX = num vec 


; # num vec <= 0， 则 跳 转 


j eax = 指向 m_src 的 指针 
;xmm0 = row 0 
;xmmi = row 1 
;xmm2 = row 2 
;Xxmm3 = row 3 


;esi = 指向 v_src 的 指针 
jedi = 指向 v_des 的 指针 
;eax = 数组 偏 移 


;xmm4 = v_src[i] 向 量 


;xmm5[31:0] 
;xmm7[31:0] 


dot product 
xmm5[31:0] 


;xmm6[31:0] = dot product 
;xmm7[63:32] = xmm6[31:0] 


;xmm5[31:0] = dot product 
;xmm7[95:64] = xmm5[31:0] 


;xmm6[31:0] 


- dot product 
;xmm7[127:96] - 


xmm6 [31:0] 
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; 保存 v_des[i]， 更 新 循环 变量 
movaps [edi+eax],xmm7 ; 保存 变换 后 的 向 量 
add eax,16 
dec ecx 
jnz @B 


Done: pop edi 


SsePfpMatrix4x4TransformVectors  endp 
end 





C++ 源 文 件 SsePackedFloatingPointMatrix4 x 4.cpp ( 见 清单 9-10 ) 包含 一 组 演示 和 矩阵 - 4B 
阵 乘法 和 和 矩阵 - 向 量 转换 的 测试 函数 。 孙 数 SsePfpMatrix4 x 4Multiply 初始 化 一 组 测试 用 的 所 
阵 ， 然 后 调用 C++ 和 汇编 版 本 的 和 矩阵 乘法 函数 ， 最 后 输出 这 些 函 数 的 结果 以 便于 对 比 。 请 注 
意 ， 其 中 一 些 C++ 和 矩阵 函数 定义 在 Mat4 x 4.cpp 文件 中 。 这 个 文件 没有 在 这 里 列 出 来 ， 读 者 可 
UERN E FER IZW, RŽ SsePfpMatrix4 x 4TransformVectors 演示 了 和 矩阵 — 向 量 的 转换 。 

示例 程序 SsePackedFloatingPointMatrix4 x4 最 重要 的 部 分 包含 在 汇编 源 文件 SsePac 
kedFloatingPointMatrix4 x 4 .asm ( 见 清 单 9-11 ) 里 。 汇 编 语言 程序 的 开始 部 分 是 一 个 宏 _ 
Mat4 x 4Transpose。 安 是 汇编 器 的 一 种 文本 替代 机 制 ， 人 允许 程序 员 把 一 段 具有 独立 功能 的 汇 
编 语言 指令 、 数 据 定义 或 其 他 语句 表示 成 一 个 字符 串 。 在 以 后 代码 里 ， 程 序 员 可 以 通过 使 用 
宏 指令 名 多 次 引用 宏 ， 而 不 再 需要 每 次 都 重新 定义 。 汇 编 源 程序 被 编译 时 ， 汇 编 编译 器 将 对 
每 个 宏 调用 进行 宏 展 开 ， 即 用 宏 定 义 的 宏 体 去 代替 宏 指 令 名 ,并 且 用 实际 参数 一 一 取代 形式 
参数 。 汇 编 语 言 的 宏 通 常用 于 产生 被 多 次 使 用 的 指令 序列 。 与 函数 调用 不 同 ， 宏 在 编译 期 间 
展开 ， 没 有 函数 调用 产生 的 性 能 问题 。 在 本 书 的 余下 章节 ， 读 者 将 学 习 到 更 多 关于 MASM 
宏 的 用 法 。 

宏 Mat x 4Transpose 定义 了 一 系列 汇编 语言 指令 来 计算 4x4 单 精度 浮 点 矩阵 的 转 
置 。 和 矩阵 转 置 的 定义 如 下 : 如 果 4 是 一 个 mxn 的 矩阵 ， 则 4 的 转 置 (标记 为 B) 是 一 
个 nxm 的 矩阵 ， 其 中 bi, 站 = al, i). V Mat4 x 4Transpose 要 求 源 和 矩阵 被 载 人 到 寄存 器 
XMM0 ~ XMM3， 并 把 转 置 矩阵 保存 在 寄存 器 XMM4 ~ XMM7。 实 际 的 转 置 过 程 是 由 
movaps 、unpcklps、unpckhps、movlhps 和 movhlps 等 指令 组 合 起 来 完成 的 ， 如 图 9-2 所 示 。 

PR Rl SsePfpMatrix4x4Multiply_ 调用 宏 Mat4x4Transpose 来 计算 两 个 4x4 和 矩阵 的 乘 
积 。 在 本 节 的 开头 ,我 们 知道 了 矩阵 乘积 C(= AB) 的 每 个 成 员 c(i, j) 只 是 和 矩阵 A 的 第 i 行 
与 矩阵 B 的 第 j 列 的 点 积 。 这 意味 着 可 以 使 用 x86-SSE 的 dpps 指令 (Dot Product of Packed 
Single-Precision Floating-Point Value， 组 合 单 精 度 浮 点 数 的 点 积 ) 来 加 速 两 个 4x4 和 矩阵 的 乘 
法 。C++ 在 内 存 中 使 用 行 主 序 来 组 织 二 维和 矩阵 ， 于 是 4x4 单 精度 浮 点 数 和 矩阵 的 一 行 可 以 通 
过 movaps 指令 载 人 到 一 个 XMM 寄存 器 。 然 而 ， 没 有 一 个 x86-SSE 指令 能 把 矩阵 的 一 列 载 
人 到 XMM 寄存 器 里 。 对 此 问题 ， 一 个 可 行 的 解决 方案 是 把 其 中 一 个 矩阵 进行 转 置 ， 这 样 就 
可 以 利用 dpps 指令 来 加 速 矩 阵 乘法 。 

接 下 来 我 们 仔细 解析 一 下 SsePfpMatrix x 4Multiply 函数 。 在 函数 序言 之 后 ， 通 过 
一 系列 movaps 指令 将 矩阵 m_src2 载 和 人 寄存 器 XMMO ~ XMM3， 紧 接着 ， 通 过 调用 安 
_Mat4 x 4Transpose 来 计算 矩阵 m_src2 的 转 置 ， 得 到 m_src2 T (图 9-3 包括 对 宏 Mat4 x 4- 
Transpose 展开 后 的 部 分 汇编 语言 源 代 码 )。 接 下 来 ,寄存器 EBX 和 EDX 分 别 被 初始 化 为 
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4§ m srcl fil m des 的 指针 ，ECX 保存 循环 计数 ，EAX 保存 m_srcl 和 m des 的 行 偏 移 。 在 
主 循环 的 开头 ， 指 令 movaps xmm0,[ebx+eax] 把 m srcl 的 第 0 TRAA] XMM0， 之 后 通过 
指令 movaps xmm1,xmm0 把 第 0 行 复制 到 XMM1， 然 后 指令 dpps xmml, xmm4,11110001b 
计算 m_srcl 第 0 行 与 m_src2 T 第 0 行 的 点 积 。dpps 的 立即 数 操作 数 的 高 4 位 是 一 个 条 
件 掩 码 ， 指 定 XMM1 和 XMM4 的 哪些 部 分 进行 相 乘 。 在 本 示例 中 ， 所 有 部 分 都 需要 进 
行 乘法 计算 (比如 xmm1[31:0] * xmm4[31:0], xmm1[63:32] *xmm4[63:32], 以 此 类 推 )。 如 
果 某 个 条 件 掩 码 位 为 0， 乘 积 结果 会 被 设置 为 0。dpps 的 立即 数 操作 数 的 低 四 位 是 一 个 
广播 掩 码 ， 用 来 指定 是 把 点 积 结果 (如果 该 位 置 为 1) 还 是 0.0 复 制 到 目标 操作 数 的 相应 
JU. 


和 矩阵 4 xmm3:xmm0 中 的 矩阵 4 


_ 
一 
— 
A 
— 
个 
一 
e 

: 


^|» nmm [2 |27 | m | 2 | xm 

» 34 38 33 xmm3 
movaps xmm4, xmm0 | xmm 
uel xn, x cn DO [E] ees 


unpckhps xmm0, xmml 


BE 
Ele 
B H 
B B 
a o 


movaps xmm$5, xmm2 


w 
x 
3 
B 
D 


unpcklps xmm5, xmm3 


w | | w 
| 
BE 
oo} | — 
N 
中 
X 
E 


unpckhps xmm2, xmm3 


movaps xmm6, xmm0 


movlhps xmm6, xmm2 


Uu 

N 

N 
N 

a 


movaps xmm7, xmm2 xmm7 
和 矩阵 4 的 转 置 xmm7:xmm3 中 矩阵 4 的 转 置 
En 
6 
3 10 29 33 | 3 | 29 | 1 | 3 | xm 267 
t 
图 9-2 7E Mat4 x 4Transpose 的 指令 序列 ， 用 于 转 置 一 个 4x4 单 精度 浮 点 数 和 矩阵 268 


接 下 来 ， 指 令 insertps xmm3,xmm1,00000000b 把 计算 所 得 的 点 积 复制 到 m. des (XMM3 
H) 的 对 应 元 素 位 置 。insertps 的 立即 操作 数 的 第 7:6 位 指定 要 复制 的 源 操作 数 的 元 素 ; 第 
5:4 位 指定 目标 操作 数 的 元 素 ; 位 3:0 为 零 掩 码 ， 用 于 在 某 些 条 件 下 把 某 个 目标 操作 数 设 为 
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0。 再 之 后 的 movaps，dpps 和 interpts 指令 序列 用 于 计算 并 保存 m_srcl 的 第 0 4745 m_sre2_ 
T 的 第 1 行 的 点 积 ， 接 下 去 再 计算 其 他 m srel 5m src2 T 的 点 积 ， 直 到 所 有 16 个 点 积 都 
被 计算 并 保存 下 来 。 


00000000 SsePfpMatrix4x4Multiply proc 
00000000 push ebp 

00000001 mov ebp,esp 
00000003 push ebx 


;计算 m_src2 的 转 置 (m src2 T) 
00000004 mov ebx, [ebp*16] ;ebx = m src2 
00000007 movaps xmm0, [ebx] 
0000000A movaps xmml, [ebx*16] 
0000000E movaps xmm2, [ebx+32] 
00000012 movaps xmm3, [ebx*48] - m src2 
_Mat4x4Transpose = m src2 T 
movaps xmm4, xmm0 
unpcklps xmm4,xmmi al b0 a0 
unpckhps xmm0, xmml a3 b2 a2 
movaps xmm5,xmm2 
unpcklps xmm5, xmm3 cl d0 cO 
unpckhps xmm2, xmm3 c3 d2 c2 
movaps xmml,xmm4 
movlhps xmm4, xmm5 c0 bO a0 
movhlps xmm5,xmml Cl bl al 
movaps xmm6, xmm0 
movihps xmmó,xmm2 b2 a2 
movaps xmm?,xmm2 
movhlps xmm7, xmm0 b2 a3 


; 初始 化 


0000003D mov edx, [ebp+8) 
00000040 mov ebx, [ebp*12] 


00000016 
00000019 
0000001C 
0000001F 
00000022 
00000025 
00000028 
0000002B 
0000002E 
00000031 
00000034 
00000037 
0000003A 


1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 





图 9-3 ZZ Mat4 x 4Transpose 的 展开 ^ 


汇编 语言 文件 SsePackedFloatingPointMatrix4 x 4 .asm 还 包含 一 个 名 为 SsePfpMatrix- 
4 x 4TransformVectors_ 的 函数 ， 此 函数 把 一 个 4x4 变换 和 矩阵 应 用 到 一 个 4x 1 向 量 数组 的 
每 个 向 量 成 员 。 它 同样 使 用 dpps 指令 对 一 个 4x4 和 矩阵 与 4x 1 向 量 的 乘法 进行 加 速 。 

输出 9-5 显示 了 SsePackedFloatingPointMatrix4 x 4 示例 程序 的 执行 结果 。 


输出 9-5 示例 程序 SsePackedFloatingPointMatrix4 x 4 
Results for SsePfpMatrix4x4Multiply() 


Matrix m src1 


10.500000 11.000000 12.000000 -13.625000 
14.000000 15.000000 16.000000 17.375000 
18.250000 19.000000 20.125000 21.000000 
22.000000 23.875000 24.000000 25.000000 


Matrix m src2 


7.000000 1.000000 4.000000 8.000000 
14.000000 -5.000000 2.000000 9.000000 
10.000000 9.000000 3.000000 6.000000 

2.000000 11.000000 -14.000000 13.000000 


Matrix m desi 
320.250000 -86.375000 290.750000 71.875000 
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502.750000 274.125000 -109.250000 568.875000 
637.000000 335.375000 -122.625000 710.750000 
778.250000 393.625000 -142.250000 859.875000 


Matrix m des2 


320.250000 -86.375000 290.750000 77.875000 
502.750000 274.125000 -109.250000 568.875000 
637.000000 335.375000 -122.625000 710.750000 


778.250000 393.625000 -142.250000 859.875000 


Results for SsePfpMatrix4x4TransformVectors() 
Matrix m src 


2.000000 0.000000 0.000000 0.000000 
0.000000 3.000000 0.000000 0.000000 
0.000000 0.000000 7.000000 0.000000 
0.000000 0.000000 0.000000 1.000000 

V SIC 0: 10.000000 10.000000 10.000000 1.000000 


v desi 0: 20.000000 30.000000 70.000000 1.000000 
v des2 0: 20.000000 30.000000 70.000000 1.000000 


V SIC 1: 10.000000 11.000000 10.000000 1.000000 
v desi 1: 20.000000 33.000000 70.000000 1.000000 
v des2 1: 20.000000 33.000000 70.000000 1.000000 
V SIC 2: 11.000000 10.000000 10.000000 1.000000 
v desi 2: 22.000000 30.000000 70.000000 1.000000 
v des2 2: 22.000000 30.000000 70.000000 1.000000 
V SIC 3: 11.000000 11.000000 10.000000 1.000000 
v desi 3: 22.000000 33.000000 70.000000 1.000000 
v des2 3: 22.000000 33.000000 70.000000 1.000000 
V SIC 4: 10.000000 10.000000 12.000000 1.000000 


v desi 4: 20.000000 30.000000 84.000000 1.000000 
v des2 4: 20.000000 30.000000 84.000000 1.000000 


V SIC 5: 10.000000 11.000000 12.000000 1.000000 
v desi 5: 20.000000 33.000000 84.000000 1.000000 
v des2 5: 20.000000 33.000000 84.000000 1.000000 


V SIC 6: 11.000000 10.000000 12.000000 1.000000 
v desi 6: 22.000000 30.000000 84.000000 1.000000 
v des2 6: 22.000000 30.000000 84.000000 1.000000 


V SIC T: 11.000000 11.000000 12.000000 1.000000 
v_des1 7: 22.000000 33.000000 84.000000 1.000000 
v des2 7: 22.000000 33.000000 84.000000 1.000000 


Results for SsePfpMatrix4x4MultiplyTimed() 
Benchmark times saved to — SsePfpMatrix4x4MultiplyTimed.csv 


Results for SsePfpMatrix4x4TransformVectorsTimed() 
Benchmark times saved to _ SsePfpMatrix4x4TransformVectorsTimed.csv 





注意 RÆ Visual Studio IDE 里 运行 此 示例 程序 ， 程 序 产 生 的 结果 文件 都 被 保存 在 
Chapter##\<ProgramName>\<ProgramName> A RF, XP ## RAPP, «ProgramName» 
代表 示例 程序 的 名 字 。 

为 了 进行 性 能 对 比 ， 表 9-2 和 表 9-3 给 出 了 测量 执行 时 间 的 结果 。 测 量 执行 时 间 的 代码 
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没有 在 本 书 中 列 出 ， 读 者 可 以 从 网 站 上 下 载 。 
表 9-2 SsePfpMatrix4x4Multiply 函数 的 平均 执行 时 间 (单位 : 毫秒 ，2000 KERR) 


CPU C++ X86-SSE 
Intel Core i7-4770 50 31 
Intel Core i7-4600U 64 41 
Intel Core i3-2310M 97 68 


表 9-3 SsePfpMatrix4x4TransformVectors 函数 的 平均 执行 时 间 (单位 : 毫秒 ，10 000 次 向 量变 换 ) 


CPU C++ . X86-SSE 
Intel Core i7-4770 43 26 
Intel Core i7-4600U 55 31 
Intel Core i3-2310M 91 63 


使 用 x86-SSE 指令 集 进行 矩阵 乘法 计算 会 得 到 30% ~ 38% 的 性 能 提升 (目标 处 理 器 不 
同 ， 测 试 结果 会 有 差异 )， 对 于 和 矩阵 - 向 量 间 的 乘法 计算 ，x86-SSE 指令 集 同 样 能 带 来 显著 
的 性 能 提升 ,一般 为 31% ~ 40%。 


9.3 总结 

本 章 集中 介绍 了 x86-SSE 的 组 合 浮 点 计算 能 力 。 我 们 学 习 了 使 用 128 位 组 合 浮 点 操作 数 
进行 基本 算术 运算 的 方法 ， 还 通过 几 个 示例 程序 演示 了 对 浮 点 数组 和 4x4 和 矩阵 进行 SIMD 
处 理 的 技巧 。 下 一 章 ， 我 们 将 学 习 创 建 汇编 语言 函数 来 利用 x86-SSE 的 组 合 整数 资源 。 
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在 第 6 章 ， 我 们 学 习 了 如 何 使 用 MMX 的 计算 资源 来 操作 组 合 整 型 数 。 这 一 章 ， 我 们 将 
学 习 如 何 利用 x86-SSE 的 计算 资源 来 处 理 组 合 整 型 数 。 第 一 个 示例 程序 侧重 于 使 用 x86-SSE 
指令 集 和 XMM 寄存 器 进行 基本 的 组 合 整数 操作 。 大 家 可 能 很 快 就 能 体会 到 ， 使 用 128 位 
XMM 寄存 器 进行 组 合 整数 操作 与 使 用 64 位 MMX 寄存 器 并 没有 太 大 的 差别 。 后 面 的 两 个 
示例 程序 演示 了 如 何 使 用 x86-SSE 指令 实现 常见 的 图 像 处理 任 务 ， 包 括 直方 图 构建 和 灰 度 图 
A BRE) (thresholding). 

和 前 面 两 章 一 样 ， 本 章 的 示例 代码 将 使 用 不 同 版 本 的 x86-SSE。 每 一 个 汇编 语言 函数 清 
单 的 开头 会 列 出 所 需 的 x86-SSE 扩展 版 本 。 使 用 本 书 附录 C 中 所 列 的 软件 工具 可 以 检测 读 
者 的 PC 机 对 x86-SSE 的 支持 程度 。 


10.1 组 合 整数 基础 


本 章 我 们 要 学 习 的 第 一 个 x86-SSE 组合 整 数 示 例 程序 名 叫 SsePackedIntegerFun- 
damentals。 这 个 示例 程序 的 目的 是 为 了 演示 如 何 使 用 XMM 寄存 器 进行 通用 的 组 合 整数 操 
作 。 示 例 程序 SsePackedIntegerFundamentals 的 C++ 和 汇编 语言 源 代码 分 别 列 在 清单 10-1 
和 清单 10-2 中 。 


清单 10-1 SsePackedintegerFundamentals.cpp 


#include "stdafx.h" 
#include "XmmVal.h" 


extern "C" void SsePiAddI16 (const XmmVal* a, const XmmVal* b, XmmVal c[2]); 
extern "C" void SsePiSubI32 (const XmmVal* a, const XmmVal* b, XmmVal* c); 
extern "C" void SsePiMul32 (const XmmVal* a, const XmmVal* b, XmmVal c[2]); 


void SsePiAddI16(void) 

{ 
_declspec(align(16)) XmmVal a; 
_declspec(align(16)) XmmVal b; 
_declspec(align(16)) XmmVal c[2]; 
char buff[256]; 


a.i16[0] = 10; b.i16[0] = 100; 
a.i16[1] = 200; b.i16[1] = -200; 
a.i16[2] - 30; b.i16[2] = 32760; 
a.i16[3] - -32766; b.i16[3] = -400; 
a.i16[4] = 50; b.i16[4] = 500; 
a.i16[5] = 60; b.i16[5] = -600; 
a.i16[6] = 32000; b.i16[6] = 1200; 
a.i16[7] = -32000; b.i16[7] = -950; 


SsePiAddI16 (8a, 8b, c); 


printf("\nResults for SsePiAddI16 An"); 


J 


printf("a: %s\n", a.ToString i16(buff, sizeof(buff))); 
printf("b: *sNn", b.ToString i16(buff, sizeof(buff))); 
printf("c[o]: %s\n", c[0].ToString i16(buff, sizeof(buff))); 
printf("\n"); 

printf("a: %s\n", a.ToString i16(buff, sizeof(buff))); 
printf ("b: %s\n", b.ToString i16(buff, sizeof(buff))); 
printf("c[1]: %s\n", c[1].ToString i16(buff, sizeof(buff))); 

} 


void SsePiSubI32(void) 


_declspec(align(16)) XmmVal a; 

_declspec(align(16)) XmmVal b; 

 declspec(align(8)) XmmVal c; // Misaligned XmmVal 
char buff[256]; 


a.i32[0] = 800; b.i32[0] = 250; 
a.i32[1] = 500; b.i32[1] = -2000; 
a.i32[2] = 1000; b.i32[2] = -40; 
a.i32[3] = 900; b.i32[3] = 1200; 


SsePiSubI32 (8a, &b, &c); 


printf("\nResults for SsePiSubI32 Wn"); 

printf("a: %s\n", a.ToString i32(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString i32(buff, sizeof(buff))); 
printf("c: %s\n", c.ToString i32(buff, sizeof(buff))); 


274 } 
void SsePiMul32(void) 


. declspec(align(16)) XmmVal a; 

. declspec(align(16)) XmmVal b; 

. declspec(align(16)) XmmVal c[2]; 
char buff[256]; 


a.i32[0] = 10; b.i32[0] = 100; 
a.i32[1] = 20; b.i32[1] = -200; 
a.i32[2] = -30; b.i32[2] = 300; 
a.i32[3] = -40; b.i32[3] = -400; 


SsePiMul32_(&a, &b, c); 


printf("\nResults for SsePiMul32_\n"); 

printf("a: %s\n", a.ToString i32(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString i32(buff, sizeof(buff))); 
printf("c[0]: %s\n", c[0].ToString i32(buff, sizeof(buff))); 
printf("\n"); 

printf("a: XsNn", a.ToString i32(buff, sizeof(buff))); 
printf("b: %s\n", b.ToString i32(buff, sizeof(buff))); 
printf("c[1]: %s\n", c[1].ToString i64(buff, sizeof(buff))); 


} 
int tmain(int argc, _TCHAR* argv[]) 
{ 
SsePiAddI16(); 
SsePiSubI32(); 
SsePiMul32(); 
return 0; 
} 


—————— — —— 
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清单 10-2 SsePackedlntegerFundamentals .asm 


.model flat,c 
.code 





; extern "C" void SsePiAddI16 (const XmmVal* a, const XmmVal* b, XmmVal c[2]); 
; 描述 : 下 面 的 函数 演示 了 使 用 回 绕 和 饱和 模式 进行 有 符号 双 字 节 组 合 整数 加 法 运算 
; 需要 SSE2 支持 


SsePiAddI16 proc 


push ebp 

mov ebp,esp 275 
; 初始 化 

mov eax, [ebp+8] ;eax = 指向 a 

mov ecx, [ebp+12] ;ecx = 指向 b 

mov edx, [ebp+16] ;edx = 指向 c 
; 将 a 和 ob 的 值 加 载 到 Xmmvals 中 

movdqa xmmo, [eax] ;xmmO = a 

movdqa xmm1,xmmo 

movdqa xmm2, [ecx] ;xmm2 - b 
; 执行 双 字 节 组 合 整 数 加 法 

paddw xmmo,xmm2 ; 组 合 加 法 ， 回 绕 模式 

paddsw xmmi,xmm2 ; 组 合 加 法 ， 饱 和 模式 
; 保存 结果 

movdqa [edx],xmmo ;保存 c[0] 

movdqa [edx+16],xmm1 ;保存 c[1] 

pop ebp 

ret 


SsePiAddI16 endp 

; extern "C" void SsePiSubI32 (const XmmVal* a, const XmmVal* b, XmmVal* c); 
; 描述 ， 下 面 的 函数 演示 了 有 符号 双 字 组 合 整数 减法 

; 需要 sse2 支持 


SsePiSubI32 proc 


push ebp 
mov ebp,esp 
; 初始 化 
mov eax, [ebp+8] ;eax = 指向 a 
mov ecx, [ebp+12] ;ecx = 指向 b 
mov edx, [ebp+16] ;edx = 指向 c 
; 执行 双 字 组 合 整数 减法 
movdqa xmm0, [eax] ;xmm0 = a 
psubd xmmo, [ecx] ;xmm0 = a - b 
movdqu [edx] ,xmmo ; 将 结果 保存 到 未 对 齐 的 内 存 中 
pop ebp 
ret 
SsePiSubI32 endp 276 


; extern "C" void SsePiMul32 (const XmmVal* a, const XmmVal* b, XmmVal c[2]); 


; 描述 。 下 面 的 函数 演示 了 双 字 组 合 整数 乘法 
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; 需要 SSE4.1 支持 


SsePiMul32 proc 
push ebp 
mov ebp,esp 


; 初始 化 
mov eax, [ebp+8] ;eax = 指向 a 
mov ecx, [ebp+12] ;ecx = 指向 b 
mov edx, [ebp+16] ;edx = 指向 c 
; 加 载 相应 的 值 并 执行 乘法 
movdqa xmm0, [eax] ;xmmo = a 
movdqa xmmi, [ecx] ;xmm1 = b 


movdqa xmm2,xmmo 


pmulld xmmo,xmmi ; 有 符号 双 字 乘 法 ， 低 32 位 结果 
pmuldq xmm2,xmmi ; 有 符号 双 字 乘法 ，8 字 节 结果 
movdqa [edx],xmmo ;c[0] = pmulld 的 运算 结果 
movdqa [edx+16] ,xmm2 ;c[1] = pmuldq 的 运算 结果 
pop ebp 
ret 

SsePiMul32 endp 
end 





C++ 文件 SsePackedIntegerFundamentals.cpp (程序 清单 10-1 ) 包含 了 3 个 测试 函数 ， 它 们 分 
别 演 示 了 基于 x86-SSE 指令 集 的 组 合 整 型 加 法 、 减 法 和 乘法 运算 。 第 一 个 函数 是 SsePiAddll6, 
它 使 用 16 位 有 符号 整 型 数 初始 化 若干 个 XmmVal 实例 ， 然 后 调用 一 个 汇编 语言 限 数 进行 组 合 整 
数 加 法 ， 加 法 的 运算 分 别 使 用 了 回 绕 和 饱和 算术 运算 模式 。 第 二 个 测试 函数 是 SsePiSubI32， 它 
会 初始 化 一 些 XmmVal 变量 来 演示 如 何 对 32 位 有 符号 整数 进行 组 合 整数 减法 运算 。 注 意 在 这 个 
函数 中 ，Xmmval 变量 c 被 故意 设 成 未 对 齐 的 形式 ， 以 便 演示 未 对 齐 数据 传输 指令 的 用 法 。 最 
后 一 个 函数 是 SsePiMul32， 它 初始 化 若干 个 XmmVal 变量 来 对 32 位 组 合 整数 进行 乘法 运算 。 

汇编 语言 文件 SsePackedIntegerFundamentals .asm ( 见 清单 10-2 ) 包含 了 相应 的 汇编 语言 函 
RM. TERR Za, PAB SsePiAddI16 会 将 参数 a、b Fil 的 值 分 别 加 载 到 寄存 器 EAX, ECX 和 
EDX 中 。 指 令 movdqa xmm0,[eax] (移动 对 齐 的 双 四 字 (16 字 节 )) 将 a 的 值 加 载 到 XMM0 中 。 
正如 其 名 ，movdqa 指令 要 求 其 访问 的 所 有 内 存 操作 数 都 是 以 16 字 节 边界 对 齐 的 。 指 令 movdqa 
xmml,xmm0 用 来 将 XMMO 的 内 容 复 制 到 XMMI1 中 。 接 下 来 指令 movdqa xmm2,[ecx] 将 b 加 载 
到 XMM2 中 。 指 令 paddw 和 paddsw 分 别 使 用 回 绕 和 饱和 算术 运算 方法 执行 16 位 有 符号 组 合 整 
数 的 加 法 。 然 后 函数 使 用 一 组 movdqa 指令 将 运算 结果 保存 到 函数 调用 者 指定 的 数组 中 。 

函数 SsePiSub32_ 使 用 psubd 指令 和 有 符号 双 字 整数 来 实现 组 合 减法 。 注 意 该 函数 使 
用 了 一 个 movdqu 指令 (复制 未 对 齐 的 16 字 节 整数 ) 将 运算 结果 保存 到 内 存 中 。 这 条 指令 
的 目标 操作 数 与 前 面 的 XmmVal 相对 应 ，XmmvVal 在 C++ FR AK SsePiSubI32 中 被 故意 设 
成 未 对 齐 形式 ， 对 它 执行 movdqa 指令 会 导致 处 理 器 产生 一 个 异常 。 最 后 一 个 汇编 语言 E 
数 SsePiMul32 演示 了 有 符号 双 字 组 合 整 数 的 乘法 运算 。 值 得 一 提 的 是 x86-SSE 指令 集 支 
持 两 种 不 同形 式 的 有 符号 双 字 组 合 整数 乘法 。 其 中 pmulld (有 符号 双 字 组 合 整数 相 乘 并 保 
存 结果 的 低 32 位 ) 指令 对 32 位 数 执行 有 符号 整数 乘法 ， 然 后 保存 每 个 乘积 的 低 32 位 数 
值 。 而 pmuldq〈 有 符号 双 字 组 合 整数 相 乘 ) 指令 计算 有 符号 整数 乘法 des[63:0] = des[31:0] * 
src[31:0] 和 des[127:64] = des[95:64] * src[95:64]， 然 后 保存 整个 64 位 (四 字 ) 乘积 。 输 出 
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10-1 列 出 了 示例 程序 SsePackedIntegerFundamentals 的 运算 结果 。 


输出 10-1 示例 程序 SsePackedlntegerFundamentals 
Results for SsePiAddI16_ 





a: 10 200 30  -32766 | 50 60 32000 -32000 
b: 100 -200 32760 -400 | 500 -600 1200 -950 
c[o]: 110 0  -32746 32370 | 550 -540 -32336 32586 
a: 10 200 30  -32766 | 50 60 32000 -32000 
b: 100 -200 32760 -400 | 500 -600 1200 -950 
c[1]: 110 0 32767  -32768 | 550 -540 32767 -32768 
Results for SsePiSubI32 

a: 800 500 | 1000 900 

b: 250 -2000 | -40 1200 

c: 550 2500 | 1040 -300 


Results for SsePiMul32 


a 10 20 | -30 -40 
b: 100 -200 | 300 -400 
c[o]: 1000 -4000 | -9000 16000 
a: 10 20 | -30 -40 
b: 100 -200 | 300 -400 
c[1]: 1000 | -9000 


10.2 ”高 级 组 合 整 数 编程 

x86-SSE 的 组 合 整 数 计算 能 力 经 常 被 用 于 提升 图 像 处 理 和 计算 机 图 形 学 算法 的 性 能 。 
本 节 我 们 将 学 习 如 何 使 用 x86-SSE 指令 集 构建 一 个 图 像 的 直方 图 。 同 时 还 会 分 析 一 个 使 用 
SIMD 处 理 技术 进行 图 像 闽 值 分 制 的 示例 程序 。 


10.2.1 组 合 整数 直方 图 


下 面 我 们 将 学 到 的 示例 程序 名 叫 SsePackedIntegerHistogram， 它 会 为 一 个 包含 8 位 灰 度 像素 
的 图 像 建立 一 个 饱和 度 直方 图 。 图 10-1 展示 了 一 个 灰 度 图 像 的 例子 及 其 直方 图 。 另 外 本 节 的 示 
例 程序 还 将 演示 如 何 动 态 分 配 内 存 缓冲 区 并 为 x86-SSE 指令 集 进 行 必要 的 对 齐 操作 。 清 单 10-3 
和 清单 10-4 分 别 给 出 了 示例 程序 SsePackedIntegerHistogram 的 C++ 和 汇编 语言 源 代码 。 
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图 10-1 灰 度 图 像 示 例 及 其 直方 图 
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清单 10-3 SsePackedIntegerHistogram.cpp 


#include "stdafx.h" 
#include "SsePackedIntegerHistogram.h" 
#include <string.h> 
#include <malloc.h> 


extern "C" Uint32 NUM PIXELS MAX = 16777216; 
bool SsePiHistogramCpp(Uint32* histo, const Uint8* pixel buff, Uint32 num pixels) 


// Wf num pixels 的 值 是 合法 的 
if ((num pixels > NUM PIXELS MAX) || (num pixels % 32 !- 0)) 
return false; 


// 确保 histo i£ 16 字 节 边界 对 齐 
if (((uintptr t)histo & Oxf) != 0) 
return false; 


// 确保 pixel buff i£ 16 字 节 边界 对 齐 
if (((uintptr t)pixel buff & Oxf) != 0) 
return false; 


// 创建 直方 图 
memset(histo, O, 256 * sizeof(Uint32)); 


for (Uint32 i = 0; i « num pixels; i++) 
histo[pixel_buff[i] ]++; 


return true; 


} 


void SsePiHistogram(void) 


{ 


const wchar t* image fn = L"..\\..\\..\\DataFiles\\TestImage1. bmp"; 
const char* csv fn = " TestImage1 Histograms.csv"; 


ImageBuffer ib(image fn); 

Uint32 num pixels - ib.GetNumPixels(); 

Uint8* pixel buff - (Uint8*)ib.GetPixelBuffer(); 

Uint32* histo1 = (Uint32*) aligned malloc(256 * sizeof(Uint32), 16); 
Uint32* histo2 - (Uint32*) aligned malloc(256 * sizeof(Uint32), 16); 
bool rci, rc2; 


Ici 
rc2 


SsePiHistogramCpp(histo1, pixel buff, num pixels); 
SsePiHistogram (histo2, pixel buff, num pixels); 


printf("Results for SsePiHistogram() Wn"); 
if (!rci || !rc2) 


printf(" Bad return code: rci-Xd, rc2-XdWn", rci, rc2); 
return; 


} 


FILE* fp; 
bool compare_error = false; 


if (fopen s(&fp, csv fn, "wt") != 0) 
printf(" File open error: Zs Wn", csv fn); 
else 


{ 
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for (Uint32 i = 0; i < 256; i++) 


( 
fprintf(fp, "Xu, Xu, XuWn", i, histoi[i], histo2[i]); 
if (histo1[i] != histo2[i]) 
printf(" Histogram compare error at index %u\n", i); 
printf(" counts: [%u, %u]\n", histo1[i], histo2[i]); 
compare error = true; 
} 
} 


if (!compare error) 
printf(" Histograms are identical\n"); 


fclose(fp); 
} 
} 
int tmain(int argc, TCHAR* argv[]) 
( 
try 
{ 
SsePiHistogram(); 
SsePiHistogramTimed(); 
} 
catch (...) 
{ 
printf("Unexpected exception has occurred! Wn"); 
printf("File: 5s (_tmain)\n", FILE ); 
) 
return 0; 
) 


if # 10-4 SsePackedlntegerHistogram .asm 


-model flat,c 
. code 
extern NUM PIXELS MAX:dword 


; extern bool SsePiHistogram (Uint32* histo, const Uint8* pixel buff, ~ 
Uint32 num pixels); 

; 描述 : 下 面 的 函数 创建 一 幅 图 像 的 直方 图 

; 返回 值 : 0 表示 参数 值 非法 

; 1 表示 成 功 


; S SSE4.1 支持 


SsePiHistogram proc 
push ebp 
mov ebp,esp 
and esp,OFFFFFFFOH ; 将 ESP 对 齐 到 16 字 节 边界 
sub esp,1024 ; 分配 histo2 的 空间 
mov edx,esp ;edx - histo2 
push ebx 
push esi 
push edi 
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; 确保 num pixels 的 值 是 合法 的 
Xor eax,eax 
mov ecx, [ebp+16] 
cmp ecx,[NUM PIXELS MAX] 
ja Done 
test ecx,1fh 
jnz Done 


; 确保 histo 和 pixel_buff 正确 对 齐 
mov ebx, [ebp+8] 
test ebx,Ofh 
jnz Done 
mov esi, [ebp+12] 
test esi,0fh 
jnz Done 


; 初始 化 直方 图 缓冲 区 (将 所 有 元 素 设 为 0 ) 


mov edi,ebx 
mov ecx,256 
rep stosd 
mov edi,edx 
mov ecx,256 
rep stosd 


; 为 循环 处 理 执 行 初 始 化 操作 
mov edi,edx 
mov ecx, [ebp+16] 
shr ecx,5 


; 创建 直方 图 


; 寄存 器 使 用 情况 : ebx = histo, edi 


align 16 

@@: movdga xmmo, [esi] 
movdqa xmm2,[esi+16] 
movdqa xmm1,xmmO 
movdqa xmm3,xmm2 


; 处 理 像素 0 ~ 3 
pextrb eax, xmm0,0 
add dword ptr [ebx«eax*4],1 
pextrb edx,xmm1,1 
add dword ptr [edi+edx#4] ,1 
pextrb eax,xmmO,2 
add dword ptr [ebx«eax*4],1 
pextrb edx,xmmi,3 
add dword ptr [edi+edx*4],1 


; 处 理 像 素 4 ~ 7 
pextrb eax,xmmo,4 
add dword ptr [ebx+eax*4],1 
pextrb edx,xmm1,5 
add dword ptr [edi«edx*4],1 
pextrb eax,xmm0,6 
add dword ptr [ebx«eax*4],1 
pextrb edx,xmm1,7 
add dword ptr [edi«edx*4],1 


; 处 理 像 素 8 ~ 11 
pextrb eax,xmmo,8 
add dword ptr [ebx+eax*4],1 
pextrb edx,xmm1,9 
add dword ptr [edisedx*4],1 


; 设置 返回 代码 为 错误 


;ecx = num pixels 
;如果 num. pixels 太 大 就 跳 转 


3 如果 num pixels % 32 !- 0 就 跳 转 


;ebx = histo 


; 若 未 对 齐 就 跳 转 


jesi = pixel buff 


; 若 未 对 齐 就 跳 转 


;edi = histo 


; 初始 化 histo 


;edi = histo2 
; 初始 化 histo2 
jedi = histo2 


;ecx = 像素 个 数 
jecx = 像素 块 个 数 


histo2, esi = pixel buff 


> 跳 转 目标 对 齐 
; 加 载 像 素 块 
;加载 像素 块 


;提取 像素 0 并 对 其 计数 
;提取 像素 1 并 对 其 计数 
;提取 像素 2 并 对 其 计数 
;提取 像素 3 并 对 其 计数 


; 提取 像素 4 并 对 其 计数 
; 提取 像素 5 并 对 其 计数 
;提取 像素 6 并 对 其 计数 
; 提取 像素 7 并 对 其 计数 


; 提取 像素 8 并 对 其 计数 
;提取 像素 9 并 对 其 计数 
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pextrb eax,xmmO,10 
add dword ptr [ebx«eax*4],1 
pextrb edx,xmm1,11 
add dword ptr [edit+edx*4],1 


; 处 理 像 素 12 ~ 15 


pextrb eax,xmmo,12 
add dword ptr [ebx«eax*4],1 
pextrb edx,xmm1, 13 
add dword ptr [edi+edx*4],1 
pextrb eax,xmmo,14 
add dword ptr [ebx+eax*4],1 
pextrb edx,xmm1,15 
add dword ptr [edi+edx*4],1 


; 处 理 像 素 16 ~ 19 


pextrb eax,xmm2,0 
add dword ptr [ebx+eax*4],1 
pextrb edx,xmm3,1 
add dword ptr [edit+edx*4],1 
pextrb eax,xmm2,2 
add dword ptr [ebx«eax*4],1 
pextrb edx,xmm3,3 
add dword ptr [edi+edx*4],1 


; 处 理 像 素 20 ~ 23 


pextrb eax,xmm2,4 
add dword ptr [ebx«eax*4],1 
pextrb edx,xmm3,5 
add dword ptr [edi+edx#4] ,1 
pextrb eax,xmm2,6 
add dword ptr [ebx«eax*4],1 
pextrb edx,xmm3,7 
add dword ptr [edi«edx*4],1 


; 处 理 像素 24 ~ 27 


pextrb eax,xmm2,8 

add dword ptr [ebx+eax*4],1 
pextrb edx,xmm3,9 

add dword ptr [edit+edx*4],1 
pextrb eax,xmm2,10 

add dword ptr [ebx+eax*4],1 
pextrb edx,xmm3,11 

add dword ptr [edi+edx*4],1 


; 处 理 像 素 28 ~ 31 


pextrb eax,xmm2,12 
add dword ptr [ebx«eax*4],1 
pextrb edx,xmm3,13 
add dword ptr [edi+edx*4],1 
pextrb eax,xmm2,14 
add dword ptr [ebx«eax*4],1 
pextrb edx,xmm3,15 
add dword ptr [edi«edx*4],1 


add esi,32 
sub ecx,1 
jnz @B 


; 将 histo2 累加 到 histo 中 作为 最 后 的 直方 图 。 


mov ecx,32 
XOr eax,eax 


; 提取 像素 10 并 对 其 计数 
; 提取 像素 11 并 对 其 计数 


; 提取 像素 12 并 对 其 计数 
; 提取 像素 13 并 对 其 计数 
; 提取 像素 14 并 对 其 计数 
; 提取 像素 15 并 对 其 计数 


; 提取 像素 16 并 对 其 计数 
; 提取 像素 17 并 对 其 计数 
; 提取 像素 18 并 对 其 计数 
; 提取 像素 19 并 对 其 计数 


; 提取 像素 20 并 对 其 计数 
; 提取 像素 21 并 对 其 计数 
; 提取 像素 22 并 对 其 计数 
; 提取 像素 23 并 对 其 计数 


; 提取 像素 24 并 对 其 计数 
; 提取 像素 25 并 对 其 计数 
; 提取 像素 26 并 对 其 计数 
; 提取 像素 27 并 对 其 计数 


; 提取 像素 28 并 对 其 计数 
; 提取 像素 29 并 对 其 计数 
; 提取 像素 30 并 对 其 计数 
; 提取 像素 31 并 对 其 计数 
; 下 一 个 像素 块 的 指针 


; 更 新 计数 器 
; 若 未 完成 继续 循环 


注意 ， 每 次 循环 迭代 都 会 票 加 8 个 直方 图 元 素 的 值 


;迭代 次 数 
; histo 数组 的 偏 移 量 
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@@: movdqa xmmO,xmmword ptr [ebx+eax]  ; 加载 histo 的 计数 


movdga xmm1,xmmword ptr [ebx+eax+16] 


paddd xmmo,xmmword ptr [edi+eax] ; ME histo2 中 的 计数 


paddd xmm1,xmmword ptr [edi+eax+16] 


movdqa xmmword ptr [ebx+eax],xmmo ;保存 最 终 的 histo 计数 


movdqa xmmword ptr [ebx«eax«16],xmmi 


add eax,32 ; 更 新 数组 偏 移 量 


sub ecx,1 ; 更 新 计数 器 


jnz GB ; 若 未 完成 继续 循环 
mov eax,1 ; 设置 成 功 返 回 码 


Done: pop edi 
pop esi 
pop ebx 
mov esp,ebp 
pop ebp 
ret 
SsePiHistogram_ endp 
end 





源 文件 SsePackedIntegerHistogram.cpp (清单 10-3 ) 的 开始 是 一 个 名 叫 SsePiHistogramCpp 
的 C++ 轴 数 ， 它 构建 了 一 个 图 像 的 直方 图 。 函 数 首先 检查 num pixels 以 确保 它 的 值 不 大 于 
NUM PIXELS MAX 且 能 被 32 整除 (整除 检查 是 为 了 与 对 应 的 汇编 语言 直方 网 函数 的 逻辑 相 
PUM). BE FOKPERUTUE histo 和 pixel. bu 任 的 地 址 是 否 进行 了 适当 的 对 齐 ， 调 用 memset 将 直 
方 图 缓冲 区 中 所 有 的 像素 计数 器 都 清 零 ， 然 后 在 一 个 简单 的 for 循环 中 完成 直方 图 的 构建 。 

PRA SsePiHistogram 使 用 一 个 名 叫 ImageBuffer 的 C++ 类 来 将 图 像 文件 中 的 像素 加 载 到 内 存 中 
( ImageBuffer 类 的 源 代码 在 这 里 没有 列 出 ， 但 作为 示例 代码 文件 的 一 部 分 可 供 下 载 )。 变 量 num 
pixels 和 pixel bu 人 ff 就 是 使 用 类 ImageBuffer 的 成 员 函 数 初始 化 的 。 接 下 来 ， 程 序 使 用 Visual C++ 运 


行 时 函数 aligned. malloc 动态 分 配 两 个 直方 图 缓冲 区 。 这 
个 运行 时 函数 有 一 个 额外 的 参数 可 以 让 调用 者 指定 所 分 配 
内 存 的 对 齐 边界 。 后 面 的 两 个 语句 调用 了 C++ 和 汇编 语 
言 直 方 图 函数 。SsePiHistogram 中 的 其 他 代码 会 比较 两 个 
直方 图 是 否 相等 并 将 结果 写 到 一 个 .CSV 文件 中 。 

x86-SSE 汇编 语言 版 本 的 直方 图 琐 数 名 叫 SsePi- 
Histogram ， 位 于 文件 SsePackedIntegerHistogram .asm 
中 (程序 清单 10-4)。SsePiHistogram 与 相应 的 C++ 
函数 不 同 ， 它 会 并 行 构建 两 个 局 部 直方 图 ， 然 后 将 二 
者 合并 生成 最 终 的 图 像 直 方 图 。 为 了 实现 这 个 算法 ， 
SsePiHistogram | 站 数 必须 多 分 配 一 个 直方 图 缓冲 区 ， 分 
配 操作 在 函数 序言 中 执行 。 在 标准 的 push ebp 和 mov 
ebp,esp 指令 之 后 ， 有 一 条 and esp,OFFFFFFFOH 指令 ， 会 
将 ESP 对 齐 到 16 字 节 边界 。 然 后 是 sub esp,1024 指令 ， 
在 栈 上 为 第 二 个 直方 图 缓冲 区 分 配 存储 空间 。 函 数 序言 
的 剩余 部 分 将 非 易 变 寄 存 器 EBX. ESI 和 EDI 的 值 保存 
在 栈 上 上 。 图 10-2 展示 了 push edi 指令 之 后 的 栈 结 构 。 


高 内 存 地 址 num pixels +16 


[ HER |o 
[Eme | ee 


histo2 对 齐 
(0、4、8 或 12 字 节 ) 


histo2 
(1024 字 节 ) 


EDX 


低 内 存 地址 老 EDI «ESP 





图 10-2 SsePiHistogram_ 函数 序言 执行 
后 的 栈 结构 
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在 函数 序言 执行 过 后 ， 与 C++ 版 本 的 程序 一 样 ，SsePiHistogram_ 会 进行 一 些 错误 
检查 ， 包 括 验证 num_pixels 的 值 、 确 保 histo 和 pixel_buff 是 边界 对 齐 的 。 然 后 函数 使 用 
rep stosd 指令 将 两 个 直方 图 缓冲 区 中 的 计数 清 零 。 在 进入 主 循环 之 前 ， 寄 存 器 EBX 指 问 
histo, EDI 指向 histo2，ESI 指向 pixel_buff， 寄 存 器 ECX 包含 了 图 像 中 的 32 字 节 像素 块 
的 个 数 。 

在 主 循 环 一 开始 ， 两 个 movdqa 指令 将 下 一 批 32 个 像素 加 载 到 寄存 器 XMM0 和 
XMM2 中 。 组 合 像素 值 还 会 被 复制 到 XMMI1 和 XMM3 中 以 提升 性 能 。pextrb eax, xmm0, 
0 (提取 字 节 ) 指令 从 XMM0 中 提取 第 0 个 字 节 (或 像素 ) 然后 将 其 复制 到 寄存 器 EAX 的 
低位 字 节 中 (EAX 的 高 位 被 清 零 )。add dword ptr [ebx+eax*4], 1 指令 将 histo 中 对 应 的 直方 
图 元 素 加 1。 接 下 来 pextrb edx, xmm0, 1 指令 从 XMMO 中 提取 第 1 个 字 节 ，add dword ptr 
[editedx*4],1 指令 更 新 对 应 的 histo2 中 的 直方 图 元 素 。 这 一 系列 的 pextrb 和 add 指令 被 重 
复 使 用 ， 直 到 当前 像素 块 中 的 所 有 32 个 字 节 都 被 处 理 过 。 在 主 循环 中 使 用 两 个 中 间 直 方 图 ， 
这 种 做 法 虽然 看 起 来 会 导致 性 能 降低 ， 但 实际 上 却 比 使 用 一 个 直方 图 缓冲 区 要 快 。 原 因 是 单 
个 直方 图 缓冲 区 形成 了 内 存 方面 的 瓶颈 ， 因 为 每 次 只 有 一 个 元 素 被 更 新 。 而 双 直 方 图 的 方法 
尽管 还 是 从 寄存 器 XMM0 ~ XMM3 中 提取 单个 像素 值 ， 但 它 却 可 以 利用 处 理 器 乱 序 指令 执 
行 机 制 和 内 存 高 速 缓冲 机 制 来 提升 性 能 。 在 第 21 章 ， 我 们 将 学 到 更 多 关于 处 理 器 乱 序 指令 
执行 和 内 存 高 速 缓 冲 的 知识 。 

在 主 循环 结束 后 ， 由 一 系列 的 movdqa 和 paddd 指令 来 计算 中 间 直 方 图 中 的 像素 计数 之 
和 并 创建 最 终 的 直方 图 。 注 意 直方 图 求 和 的 循环 在 每 次 迭代 中 都 会 累加 8 个 无 符号 双 字 元 
素 ， 这 也 能 提升 计算 性 能 。 输 出 10-2 给 出 了 示例 程序 SsePackedIntegerHistogram 的 运行 结 
果 。 表 10-1 包含 了 一 些 计 时 测量 数据 。 


输出 10-2 示例 程序 SsePackedlntegerHistogram 


Results for SsePiHistogram() 
Histograms are identical 


Benchmark times saved to file _ SsePackedIntegerHistogramTimed.csv 


3210-1 示例 程序 SsePackedintegerHistogram 中 的 直方 图 函数 处 理 TestlImage1.bmp 
的 平均 执行 时 间 (单位 : 微 秒 ) 


CPU SsePiHistogramCpp (C++) SsePiHistogram | (x86-SSE) 
Intel Core i7-4770 296 235 
Intel Core i7-4600U 351 271 
Intel Core i3-2310M 668 485 
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我 们 要 学 习 的 最 后 一 个 x86-SSE 组 合 整数 示例 程序 名 叫 SsePackedIntegerThreshold. iX 
个 示例 程序 将 展示 如 何 利 用 x86-SSE 指令 集 来 执行 一 种 称 为 闷 值 分 割 的 常规 图 像 处 理 技术 。 
该 程序 展示 了 如 何在 一 个 灰 度 图 像 中 计算 选 定 像素 的 平均 饱和 度 。 清 单 10-5、 清 单 10-6 和 
清单 10-7 给 出 了 示例 程序 SsePackedIntegerThreshold 的 C++ 和 汇编 语言 源 代 码 
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清单 10-5 SsePackedIntegerThreshold.h 
#pragma once 
#include "ImageBuffer.h" 


// 图 像 阐 值 分 割 数据 结构 。 该 结构 必须 与 SssePackedIntegerThreshold_.asm 中 所 定义 的 结构 保持 一 致 
typedef struct 


Uint8* PbSrc; // 源 图 像 像 素 缓冲 区 
Uint8* PbMask; // WEW mask 的 像素 缓冲 区 
Uint32 NumPixels; // 源 图 像 的 像素 个 数 
Uint8 Threshold; // 图 像 阅 值 分 割 的 数值 
Uint8 Pad[3]; // BREA 


Uint32 NumMaskedPixels; // 被 掩 码 的 像素 数量 

Uint32 SumMaskedPixels; // 被 掩 码 的 像素 和 

double MeanMaskedPixels; // 被 掩 码 像素 的 平均 值 
} ITD; 


// 定义 在 SsePackedIntegerThreshold.cpp 中 的 函数 
extern bool SsePiThresholdCpp(ITD* itd); 
extern bool SsePiCalcMeanCpp(ITD* itd); 


// 定义 在 SsePackedIntegerThreshold .asm 中 的 函数 
extern "C" bool SsePiThreshold (ITD* itd); 
extern "C" bool SsePiCalcMean (ITD* itd); 


// 定义 在 SsePackedIntegerThresholdTimed.cpp 中 的 函数 
extern void SsePiThresholdTimed(void); 


// 其 他 常量 


288 const Uint8 TEST THRESHOLD - 96; 





清单 10-6 SsePackedlntegerThreshold.cpp 


#include "stdafx.h" 
#include "SsePackedIntegerThreshold.h" 
#include «stddef.h» 


extern "C" Uint32 NUM PIXELS MAX = 16777216; 


bool SsePiThresholdCpp(ITD* itd) 

( 
Uint8* pb src - itd-»PbSrc; 
Uint8* pb mask - itd-»PbMask; 
Uint8 threshold - itd-»Threshold; 
Uint32 num pixels - itd-»NumPixels; 


// 确保 num pixels 值 是 合法 的 

if ((num pixels == 0) || (num pixels » NUM PIXELS MAX)) 
return false; 

if ((num pixels & Ox1f) != 0) 
return false; 


// 确保 图 像 缓冲 区 是 适当 对 齐 的 

if (((uintptr t)pb src & Oxf) != 0) 
return false; 

if (((uintptr t)pb mask & Oxf) !- O) 
return false; 


// 对 图 像 进行 阅 值 分 割 
for (Uint32 i = 0; i « num pixels; i++) 
*pb mask++ = (*pb_src++ > threshold) ? Oxff : 0x00; 
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) 





return true; 


bool SsePiCalcMeanCpp(ITD* itd) 


{ 


} 


Uint8* pb src = itd-»PbSrc; 
Uint8* pb mask - itd-»PbMask; 
Uint32 num pixels - itd-»NumPixels; 


// 确保 num pixels 值 是 合法 的 
if ((num pixels == 0) || (num pixels » NUM PIXELS MAX)) 


return false; 


if ((num pixels & Ox1f) != 0) 


return false; 


// 确保 图 像 缓冲 区 是 适当 对 齐 的 
if (((uintptr t)pb src & Oxf) != 0) 


return false; 


if (((uintptr t)pb mask & Oxf) != 0) 


return false; 


// 计算 被 掩 码 像素 的 平均 值 


Uint32 sum masked pixels 
Uint32 num masked pixels 


0; 
0; 


Ll 


for (Uint32 i = 0; i « num pixels; i++) 


{ 


Uint8 mask val = *pb_mask++; 
num masked pixels += mask val & 1; 
sum masked pixels += (*pb src++ & mask val); 


) 


itd-»NumMaskedPixels 
itd-»SumMaskedPixels 


num masked pixels; 
sum masked pixels; 


if (num masked pixels > 0) 
itd-»MeanMaskedPixels = (double)sum masked pixels /~ 
num masked pixels; 


else 


itd-»MeanMaskedPixels - -1.0; 


return true; 


void SsePiThreshold() 


{ 


wchar t* fn src = L"..\\..\\..\\DataFiles\\TestImage2.bmp" ; 


wchar t* fn maski = L" TestlImage2 Maski.bmp"; 
wchar t* fn mask2 = L" TestImage2 Mask2.bmp"; 


ImageBuffer* im src - 


new ImageBuffer(fn src); 


ImageBuffer* im maski - new ImageBuffer(*im src, false); 
ImageBuffer* im mask2 - new ImageBuffer(*im src, false); 


ITD itdi, itd2; 


itdi.PbSrc = (Uint8*)im src-»GetPixelBuffer(); 
itdi.PbMask = (Uint8*)im mask1-»GetPixelBuffer(); 
itdi.NumPixels - im src-»GetNumPixels(); 
itdi.Threshold = TEST THRESHOLD; 


itd2.PbSrc - (Uint8*)im src-»GetPixelBuffer(); 
itd2.PbMask - (Uint8*)im mask2-»GetPixelBuffer(); 
itd2.NumPixels - im src-»GetNumPixels(); 
itd2.Threshold - TEST THRESHOLD; 
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bool rci = SsePiThresholdCpp(&itd1) ; 
bool rc2 = SsePiThreshold (&itd2) ; 


if (!rc1 || !rc2) 


printf("Bad Threshold return code: rci-Xd, rc2=%d\n", rci, rc2); 
return; 


} 


im_mask1->SaveToBitmapFile(fn_mask1) ; 
im_mask2->SaveToBitmapFile(fn_mask2) ; 


// 计算 被 掩 码 像素 的 平均 值 

rc1 = SsePiCalcMeanCpp(&itd1); 
rc2 = SsePiCalcMean (&itd2); 
if (!rci || !rc2) 


printf("Bad CalcMean return code: rci=%d, rc2=%d\n", rci, rc2); 


return; 
) 
printf("Results for SsePackedIntegerThreshold\n\n") ; 
printf(" C++ X86-SSE\n"); 
printf ("-------------------------------------------- \n")3; 


printf("SumPixelsMasked: "); 

printf("%12u %12u\n", itdi.SumMaskedPixels, itd2.SumMaskedPixels) ; 
printf("NumPixelsMasked: "); 

printf("%12u %12u\n", itdi.NumMaskedPixels, itd2.NumMaskedPixels) ; 
printf("MeanPixelsMasked: "); 

printf("%12.61f %12.61f\n", itd1.MeanMaskedPixels, itd2.MeanMaskedPixels) ; 


delete im_src; 
delete im_mask1; 
delete im_mask2; 


} 
int tmain(int argc, _TCHAR* argv[]) 
1 
try 
SsePiThreshold(); 
SsePiThresholdTimed(); 
291 ) 
catch: (<<) 
{ 
printf("Unexpected exception has occurred! Wn"); 
printf("File: 4s (_tmain)\n", FILE ); 
} 
return 0; 
} 





清单 10-7. SsePackedlntegerThreshold .asm 


.model flat,c 
extern NUM PIXELS MAX:dword 








; 图 像 阔 值 分 割 数据 结构 ( 见 SsePackedIntegerThreshold.h) 
ITD struct 
PbSrc dword ? 
PbMask dword ? 
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NumPixels dword ? 
Threshold byte ? 
Pad byte 3 dup(?) 
NumMaskedPixels dword ? 
SumMaskedPixels dword ? 
MeanMaskedPixels real8 ? 
ITD ends 

.const 

align 16 
PixelScale byte 16 dup(80h) 


CountPixelsMask byte 16 dup(01h) 
R8 MinusOne real8 -1.0 
.code 


; extern "C" bool SsePiThreshold (ITD* itd); 


3 


; uint8 到 int8 的 缩放 值 
; 用 于 像素 计数 的 掩 码 
; 非法 的 平均 值 


; 描述 : 下 面 的 函数 对 一 个 灰 度 图 (每 像素 8 比特 ) 进行 图 像 阔 值 分 割 操作 


; 返回 值 : 0 表示 非法 的 大 小 或 未 对 齐 的 图 像 缓 冲 
3 1 表示 成 功 
; SSE 版 本 : SSSE3 


SsePiThreshold proc 
push ebp 
mov ebp,esp 
push esi 
push edi 


; 加 载 并 验证 ITD 结构 中 的 参数 值 
mov edx, [ebp+8] 
XOT eax,eax 
mov ecx, [edx+ITD.NumPixels] 
test ecx,ecx 
jz Done 
cmp ecx,[NUM PIXELS MAX] 
ja Done 
test ecx,0fh 
jnz Done 
shr ecx,4 


mov esi, [edx+ITD.PbSrc] 
test esi,0fh 

jnz Done 

mov edi, [edx+ITD.PbMask ] 
test edi,ofh 

jnz Done 


; MRKA ae 


movzx eax,byte ptr [edx+ITD. Threshold] 


movd xmmi,eax 

pxor xmmO, xmmO 

pshufb xmm1,xmmo 

movdga xmm2,xmmword ptr [PixelScale] 
psubb xmm1, xmm2 


; 创建 掩 码 图 像 

@@: movdqa xmmo, [esi] 
psubb xmmo,xmm2 
pcmpgtb xmmo, xmm1 
movdqa [edi] ,xmmo 


区 


;edx = ‘itd’ 
; 设置 错误 返回 码 


;ecx = NumPixels 
则 跳 转 
; 若 num_pixels 太 大 则 跳 转 


; € num pixels == 


; É num pixels X 16 != 0 则 跳 转 
; 组 合 像素 的 个 数 


jesi = PbSrc 


; 若 未 对 齐 则 跳 转 
;edi = PbMask 


; 若 未 对 齐 则 跳 转 


;eax = S^ BIB 
;xmm1[7:0] = 单个 阅 值 
;pshufb AYIA 

; 88 EB 


; fa f 


; 加 载 下 一 个 组 合 像素 
; 缩放 过 的 图 像 像 素 

; 与 阔 值 对 比 

; 保存 组 合 阅 值 掩 码 
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Done: 





add esi,16 
add edi,16 
dec ecx 
jnz GB 

mov eax,1 


pop edi 
pop esi 
pop ebp 
ret 


SsePiThreshold endp 


; 循环 直至 结束 
; 设置 返回 码 


; extern "C" bool SsePiCalcMean (ITD* itd); 





; 描述 : 下 面 的 函数 使 用 函数 SssePiThreshold 创建 的 掩 码 计算 所 有 高 于 阅 值 的 图 像 像 素 的 平均 值 
; 返回 值 : 0 表示 非法 的 图 像 大 小 或 未 对 齐 的 图 像 缓冲 区 


’ 
, 


, 


SsePiCalcMean 


1 表示 成 功 


; 需要 SSSE3 支持 


proc 
push ebp 
mov ebp,esp 
push ebx 
push esi 
push edi 


; 加 载 并 验证 ITD 结构 中 的 参数 值 


mov eax, [ebp+8] 

mov ecx, [eax«ITD.NumPixels] 
test ecx,ecx 

jz Error 

cmp ecx,[NUM PIXELS MAX] 

ja Error 

test ecx,0fh 

jnz Error 

shr ecx,4 


mov edi, [eax+ITD.PbMask ] 
test edi,ofh 

jnz Error 

mov esi, [eax+ITD.PbSrc] 
test esi,Ofh 

jnz Error 


; 为 平均 值 计算 初始 化 数值 


xor edx,edx 
pxor xmm7,xmm7 


pxor xmm2,xmm2 
pxor xmm3,xmm3 
pxor xmm4,xmm4 


pxor xmm6,xmm6 
xor ebx,ebx 


循环 处 理 的 寄存 器 使 用 
esi = PbSrc, edi = PbMask, eax = 
ebx = 


'itd' 
NumPixels 


;eax 
;ecx 


; inum pixels == 0 则 跳 转 


; i num pixels 太 大 则 跳 转 


i € num pixels X 16 !- 0 则 跳 转 
; ecx = 组 合 像素 的 个 数 


jedi = PbMask 


; 若 PbMask 未 对 齐 则 跳 转 


;esi = PbSrc 

; Æ PbSrc 未 对 齐 则 跳 转 
;更 新 次 数 
;组 合 0 值 
;xmm2 = sum masked pixels ( 8 字 ) 
;xmm3 = sum masked pixels (8 字 ) 
;xmm4 = sum masked pixels (4 RF) 
;xmm6 = num masked pixels (8 字 节 ) 


;ebx = num masked pixels (1 双 字 ) 


itd 


num_pixels_masked，ecx = NumPixels / 16，edx = 更 新 次 数 


xmm0 = 组 合 像素 ，xmml = 组 合 掩 码 
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xmm3:xmm2 = sum masked pixels (16 =) 
xmm4 = sum masked pixels (4 M+) 
xmm5 = 草稿 寄存 器 

xmm6 = 组 合 过 的 num_masked_pixels 
xmm7 = 组 合 0 值 


@@: movdqa xmmO,xmmword ptr [esi] ; 加 载 下 一 个 组 合 像素 
movdqa xmm1,xmmword ptr [edi] ; 加 载 下 一 个 组 合 掩 码 


v. ve vs we we 


; 更 新 sum_masked_pixels ( 双 字 节 值 ) 
movdqa xmm5,xmmword ptr [CountPixelsMask] 
pand xmm5,xmm1 
paddb xmm6, xmm5 ;更 新 num masked pixels 
pand xmmO,xmm1i ;将 未 被 掩 码 的 像素 设 为 0 
movdqa xmm1,xmmO 
punpcklbw xmmo,xmm7 


punpckhbw xmm1, xmm7 ; 被 掩 码 的 像素 ( 双 字 节 值 ) 
paddw xmm2,xmmO 
paddw xmm3,xmm1 ;xmm3:xmm2 = sum masked pixels 


; 检查 是 否 需要 更 新 xmm 中 的 双 字 sum_masked_pixels 值 和 ebx 中 的 num masked pixels {A 
inc edx 
cmp edx,255 
jb NoUpdate 
call SsePiCalcMeanUpdateSums 
NoUpdate: 
add esi,16 
add edi,16 
dec ecx 


jnz GB ; 循环 直至 结束 


; 主 循环 结束 。 若 有 必要 ， 对 xmm4 中 的 sum masked pixels 值 和 ebx 中 的 num masked pixels 值 做 最 后 
一 次 更 新 
test edx,edx 
jz @F 
call SsePiCalcMeanUpdateSums 


; 计算 并 保存 最 终 的 sum_masked_pixels fü num_masked_pixels 的 值 


@@: phaddd xmm4, xmm7 
phaddd xmm4, xmm7 
movd edx,xmm4 ; 最 终 的 sum mask pixels 值 
mov [eax«ITD.SumMaskedPixels],edx ; 保存 最 终 的 sum masked pixels 
mov [eax«ITD.NumMaskedPixels],ebx ;保存 最 终 的 num_masked_pixels 295 
; 计算 被 掩 码 像素 的 平均 值 
test ebx,ebx ;num mask pixels 是 否 为 0? 
jz NoMean ; 若 为 0， 跳 过 平均 值 的 计算 
cvtsi2sd xmm0,edx ;xmmO = sum masked pixels 
cvtsi2sd xmmi,ebx ;xmm1 = num masked pixels 
divsd xmmO,xmmi ;Xmm0 = mean masked pixels 
jmp GF 
NoMean: movsd xmmo,[R8 MinusOne] ; 使 用 -1.0 表示 无 平均 值 
QQ: movsd [eax+ITD.MeanMaskedPixels],xmmo  ; 保存 平均 值 
mov eax,1 ; 设置 返回 码 
Done: pop edi 
pop esi 
pop ebx 
pop ebp 
ret 
Error: xor eax,eax ; 设置 错误 返回 码 


jmp Done 
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SsePiCalcMean_ endp 
; void SsePiCalcMeanUpdateSums 


; HA. 下面 的 函数 更 新 xmm4 中 的 sum_masked_pixels 和 ebx 中 的 num_masked_pixels。 为 了 防止 溢出 的 
发 生 ， 它 同时 还 会 重 置 所 有 必需 的 中 间 值 


J 
; 寄存 器 内 容 : 

;  xmm3:xmm2 = 组 合 过 的 双 字 节 sum masked pixels fü 
;  xmm4 = 组 合 过 的 四 字 节 sum masked pixels fü 

; ”xmm6 = 组 合 num_masked_pixels 

; ”xmm7 = 组 合 0 值 

; ebx = num masked pixels 

3 

3 

3 


; 临时 寄存 器 : 


xmmO, xmm1, xmm5, edx 
SsePiCalcMeanUpdateSums proc private 


; 将 组 合 字 (MFA) sum_masked pixels 扩展 到 双 字 (BSH) 
movdqa xmmO,xmm2 
movdqa xmm1,xmm3 
punpcklwd xmmo,xmm7 
punpcklwd xmmi,xmm7 
punpckhwd xmm2,xmm7 
punpckhwd xmm3,xmm7 


; 更 新 sum masked pixels 中 组 合 双 字 和 
paddd xmmO,xmmi 
paddd xmm2,xmm3 
paddd xmm4,xmmo 
paddd xmm4, xmm2 ;xmm4 = 组 合 过 的 sum masked pixels 


; 计算 xmm6 中 num_masked_pixel 计数 值 (单字 节 ) 的 和 ， 并 将 结果 累加 到 ebx 中 
movdqa xmms5,xmm6 
punpcklbw xmm5,xmm7 


punpckhbw xmm6 ,xmm7 ; xmm5 = 组 合 过 的 num_masked_pixels 
paddw xmm6,xmm5 ; xmm6 = 组合 过 的 num_masked_pixels 


phaddw xmm6,xmm7 
phaddw xmm6, xmm7 


phaddw xmm6, xmm7 ; xmm6[15:0] = RAKA (MSD) 
movd edx,xmm6 
add ebx,edx ;ebx = num masked pixels 

; 重 置 中 间 值 


xor edx,edx 

pxor xmm2,xmm2 

pxor xmm3,xmm3 

pxor xmm6,xmm6 

ret 
SsePiCalcMeanUpdateSums endp 

end 





图 像 阅 值 分 割 是 一 种 常用 的 图 像 处 理 技术 ， 它 可 以 创建 一 个 灰 度 图 的 二 值 化 图 像 。 这 
个 二 值 化 图 像 (或 称 掩 码 图 像 ) 表征 了 原始 图 像 中 的 哪些 像素 的 饱和 度 大 于 预 设 的 (或 算 
法 推演 的 ) WAREN. E 10-3 展示 了 一 个 闪 值 分 割 的 实例 。 掩 码 图 像 经 常 被 用 来 对 原始 
灰 度 图 进行 各 种 附加 计算 。 例 如 ， 图 10-3 演示 了 掩 码 图 像 的 一 种 典型 应 用 ， 在 原始 灰 度 图 
中 计算 饱和 度 高 于 某 阐 值 的 像素 的 平均 饱和 度 。 掩 码 图 像 的 应 用 简化 了 平均 饱和 度 的 计算 ， 
因为 它 利 用 简单 的 布尔 表达 式 将 不 需要 参与 计算 的 像素 排除 在 外 。 本 节 的 示例 程序 就 展示 
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原始 灰 度 图 国 值 分 割 后 的 掩 码 网 像 
图 10-3 灰 度 图 实例 及 其 掩 码 图 像 


了 这 种 方法 。 





SsePackedIntegerThreshold 示例 程序 使 用 的 算法 包含 两 个 阶段 。 第 一 阶段 构建 了 
图 10-3 所 示 的 掩 码 图 像 。 第 二 阶段 计算 了 掩 码 图 像 中 所 有 白色 像素 的 平均 饱和 度 。 文 
fF SsePackedIntegerThreshold.h ( 见 清单 10-5) 中 定义 了 一 个 名 为 ITD 的 结构 体 ， 用 来 记 
录 算 法 所 需 的 数据 。 注意 ， 这 个 结构 体 包 含 了 两 个 像素 计数 相关 的 变量 : NumPixels 和 
NumMaskedPixels。 前 一 个 变量 表示 总 的 像素 数量 ， 后 一 个 变量 用 于 记录 灰 度 图 像 的 大 于 
Threshold (也 是 结构 体 变量 ) 的 像素 个 数 。 

C++ 源 文件 SsePackedIntegerThreshold.cpp (1L 10-6 ) 包含 了 独立 的 阔 值 分 割 和 平均 
值 计算 函数 。 函 数 SsePiThresholdCpp 将 灰 度 图 的 每 个 像素 值 与 itd Threshold 指定 的 阔 值 相 比 
较 ， 从 而 构建 灰 度 图 的 掩 码 图 像 。 如 果 一 个 灰 度 图 的 像素 值 大 于 相应 靖 值 ， 其 对 应 的 掩 码 图 像 
像素 就 被 设 成 0xff ; APM, AHS RRA PIT 0x00. PAA SsePiCalcMeanCpp 使 用 前 面 得 
出 的 掩 码 图 像 来 计算 灰 度 图 中 所 有 像素 值 大 于 某 闷 值 的 像素 的 平均 饱和 度 。 注 意 函数 中 的 for 
循环 使 用 简单 的 布尔 表达 式 而 不 是 逻辑 比较 语句 来 计算 num mask pixels fl sum mask pixels 
的 值 。 后 一 种 方法 通常 会 更 快 ， 且 容易 使 用 SIMD 算术 来 实现 ， 这 一 点 我 们 很 快 就 会 看 到 。 

清单 10-7 是 阔 值 分 割 和 平均 饱和 度 计 算 的 汇编 版 本 。 在 序言 之 后 ， 函 数 SsePiThre- 
shold 对 ITD.NumPixels、ITD.PbSrc 和 ITD.PbMask 进 行 合 法 性 检查 。movzx eax,byte 
ptr[edx+ITD.Threshold] 指令 将 给 定 的 阅 值 复制 到 寄存 器 EAX 中 。 接 下 来 在 movd xmml,eax 
指令 之 后 ， 函 数 使 用 pshufb (Packed Shuffle Bytes， 组 合 移动 字 节 ) 指令 来 创建 一 个 组 合 效 
值 。pshufb 指令 使 用 源 操作 数 中 的 每 个 字 节 的 低位 四 比特 ， 把 它们 作为 索引 值 来 置换 目标 操 
作 数 中 的 字 节 (如 果 高 位 在 源 操作 数 中 被 置 位 ， 则 赋值 为 0 )。 该 过 程 如 图 10-4 所 示 。 在 当 
前 程序 中 ， 指 令 pshufb xmml,xmm0 将 XMM1[7:0] 中 的 值 复制 到 XMMI 中 的 每 个 字 节 元 素 
中 ， 因 为 XMM0 中 包含 的 全 部 为 0。 接 下 来 组 合 阔 值 会 被 缩放 以 便 在 主 循环 中 使 用 。 

PK XX SsePiThreshold 中 的 主 循环 使 用 pcmpgtb ( Compare Packed Signed Integers for 
Greater Than， 比 较 组 合 有 符号 整数 看 是 否 大 于 ) 指令 来 创建 掩 码 图 像 。 这 个 指令 对 目标 操 
作 数 和 源 操 作 数 中 的 字 节 进行 两 两 对 比 ， 如 果 目 标 操作 数 中 的 字 节 大 于 与 之 对 应 的 源 操作 数 
的 字 节 ， 则 目标 操作 数 中 的 字 节 会 被 设 为 0xff ; 否则 将 其 设 为 0x00， 如 图 10-5 所 示 。 这 里 
需要 注意 ，pcmpgtb 指令 进行 的 是 有 符号 整数 的 算术 比较 。 而 灰 度 图 中 的 像素 值 是 无 符号 字 
节 值 ， 这 意味 着 像素 值 必须 被 转换 以 保持 和 pcmpgtb 指令 的 兼容 。psubb xmm0,xmm2 指令 
将 存放 于 XMMO 中 的 灰 度 图 像素 值 从 [0, 255] 重新 映射 到 [-128, 127]。 之 后 ，movdqa 指令 
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将 结果 保存 到 掩 码 图 像 缓 冲 区 中 。 


pshufb des, src 指 令 的 图 示 
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使 用 pshufb xmm1, xmm0 指 令 创 建 组 合 阔 值 
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图 10-4 pshufb 指令 的 图 示 

















pcmpgtb des, src 指 令 的 图 示 
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图 10-5 pempgtb 指令 的 图 示 


与 C++ 程序 中 对 应 的 函数 类 似 ， 汇 编 语言 函数 SsePiCaleMean 用 来 计算 灰 度 图 中 所 有 
高 于 某 阔 值 的 像素 的 平均 饱和 度 。 为 了 计算 所 需 的 像素 总 和 ， 函 数 主 循环 使 用 无 符号 双 字 节 
和 无 符号 四 字 节 值 来 操作 两 个 中 间 组 合 像素 值 的 和 。 这 样 就 将 必须 进行 的 组 合 单字 节 到 双 字 
节 和 双 字 节 到 四 字 节 值 的 转化 次 数 降 到 最 低 。 在 每 次 迭代 中 ,XMM0 中 的 高 于 阔 值 的 灰 度 
像素 值 会 被 转换 成 双 字 节 值 ， 并 被 累加 到 XMM3:XMM2 中 的 组 合 双 字 节 中 。 主 循环 还 会 更 
新 保存 在 XMM6 中 的 高 于 冰 值 的 像素 的 个 数 。 图 10-6 显示 了 进行 以 上 运算 的 代码 段 的 执行 
过 程 。 注 意 ， 图 10-6 中 采用 的 方法 本 质 上 是 对 C++ 函数 SsePiCalcMeanCpp 中 的 for 循环 中 
使 用 的 技术 的 一 种 基于 SIMD 的 实现 。 

每 经 过 255 次 迭代 ，XMM3:XMM2 中 的 组 合 字 ( 双 字 节 ) 像素 和 就 会 被 转换 为 组 
合 双 字 类 型 ， 并 累加 到 XMM4 的 组 合 双 字 像 素 和 中 。XMM6 中 的 组 合 单字 节 像 素 计 数 
也 会 被 汇总 并 累加 到 EBX 中 ，EBX 中 包含 了 变量 num masked pixels (255 次 迭代 的 限 
制 可 以 防止 XMM6 中 的 组 合 单字 节 像 素 计数 的 算术 运算 溢出 )。 这 些 计算 都 在 一 个 名 为 
SsePiCalcMeanUpdateSums 的 私有 函数 中 进行 。 循 环 一 直 会 执行 ， 直 到 图 像 中 所 有 的 像素 都 
被 处 理 过 。 在 循环 结束 以 后 ， 程 序 使 用 phaddd 指令 将 XMM4 中 的 四 个 四 字 节 像素 饱和 度 值 
简化 到 最 终 的 变量 sum masked pixels 中 。 随 后 ， 函 数 使 用 两 个 cvtsi2sd 指令 将 EDX (sum_ 
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masked pixels) 和 EBX (num mask pixels) 转换 为 双 精 度 浮 点 数 ; 然后 利用 divsd 指令 计算 
ITD.MeanMaskedPixels。 输 出 10-3 显示 了 示例 程序 SsePackedIntegerThreshold 的 执行 结果 。 
表 10-2 中 显示 了 其 执行 时 间 的 测量 值 。 


灰 度 图 像素 值 
[10s [n2 [ 42 [ 38 | 41 | 44 [ 45 [187 [192 | 41 [199 [200 [220| 65 | 67 [233] xmmo 
REFUS e t 


[fm | m [oon [oon oon [oon [oon | sm | sth oon | sm | m | tm [oon Joon] ft | xmml 


CountPixelsMask 


[orm [omm orn [orn [orn [orm | orm [orn [orn [orn [orn or [orn orm jor] otk] xmms 


num masked pixels 
[10 [15 [14 [33 | 7 | 29 [85 | 50 [no] 4o [ 30 | 21 | 19 | 40 | 25 |120| xmms 


sum masked pixels (低位 字 ) 


[59 | i5 [ s» | 1250 | me | 99 [2500 | zm] om 


sum masked pixels (高 位 字 ) 


Cso [ 4*9 [ m | 7 | we | x5» [ s100 | 359 | xmms 
pand xmm5, xmml 
[01n [01h | ooh | oon | oon oon [oon | orn [orm [oon [orn | orn [orm [oon | Ooh | Orn} xmms 


paddb xmm6, xmm5 


c sis p [7 8 [88 [5r T 6 [9r [22 [29 [6 35 [081] mms 


pand xmm0, xmm1 


[sos] i12[ o | o | o | o | o i871192] o [199] 200] 220] o | o [233] xmmo 
movdga xmm1, xmm0 

mopa o [o [o | oo Der] o Tio oo zzo| v To [233] xw: 
punpcklbw xmm0, xmm7 


[um | e | [3 [| m [| $ | 9 | 39 ] xo 


punpckhbw xmml, xmm7 


Lam poaepo e qoe] ape 0 owr.] ewm 


paddw xmm2, xmm0 


[e [ ie [5 [ wm [ wes [ sm | 259 | 265 | «mw: 
reos | «uz [5 [ 7 | ww | ss | su | 397 ] wmm 


ik: XMM7 中 保存 的 数值 为 全 0。 
图 10-6 像素 和 以 及 像素 计数 的 计算 过 程 


输出 10-3 ”示例 程序 SsePackedIntegerThreshold 
Results for SsePackedIntegerThreshold 


C++ X86-SSE 


SumPixelsMasked: 23813043 23813043 
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NumPixelsMasked: 138220 138220 
MeanPixelsMasked: 172.283628 172.283628 


Benchmark times saved to file — SsePackedImageThresholdTimed.csv 


X 10-2 示例 程序 SsePackedlmageThreshold 中 使 用 的 算法 针对 Testlmage2.bmp 的 
平均 执行 时 间 (单位 : 微 秒 ) 


CPU C++ x86-SSE 
Intel Core i7-4770 515 49 
Intel Core 17-4600U 608 60 
Intel Core i3-2310M 1199 108 


10.3 总结 
x 本 章 我 们 学 习 了 如 何 使 用 x86-SSE 中 的 组 合 整数 功能 进行 基本 的 算术 运算 。 我 们 还 
，| 分 析 了 一 些 示 例 程序 ， 它 们 演示 了 通用 图 像 处 理 算 法 的 加 速 实 现 。 下 一 章 我 们 将 继续 学 习 
302| x86-SSE 编程 ， 重 点 学 习 处 理 文本 串 的 x86-SSE 指令 的 用 法 。 
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Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


x86-SSE 编程 一 一 字符 串 





前 面 三 章 的 示例 代码 集中 展示 了 如 何 利 用 x86-SSE 指令 集 实现 数值 算法 。 在 这 一 章 
里 ， 我 们 将 学 习 x86-SSE 的 字符 串 处 理 指令 。x86-SSE 的 字符 串 处 理 指 令 与 x86-SSE 的 其 
他 指令 有 所 不 同 ， 因 为 它们 的 执行 依赖 于 一 个 立即 数控 制 字 节 。11.1 节 讲 述 控制 字 节 的 不 
同 选项 及 操作 范例 ， 同 时 还 将 讨论 在 使 用 SIMD 技术 处 理 字 符 串 时 需要 注意 的 一 些 事项 。 
11.2 节 中 ， 我 们 将 学 习 若 干 个 示例 程序 ， 这 些 程序 展示 了 x86-SSE 字符 串 处 理 指令 的 基本 
用 法 。 

支持 SSE4.2 的 处 理 器 都 具备 x86-SSE 字符 串 处 理 指 令 ， 如 AMD FX 和 Intel i # Ak 
理 器 家 族 。 读 者 可 以 使 用 附录 C 中 提 及 的 工具 来 确认 你 的 PC 处 理 器 是 否 支 持 SSE4.2。 在 
第 16 章 ， 我 们 将 学 习 如 何 使 用 cpuid 指令 在 运行 时 检测 处 理 器 所 支持 的 功能 和 扩展 (如 
SSE4.2 ), 


11.1 字符 串 基础 知识 


编程 语言 通常 使 用 两 种 方式 管理 和 处 理 文本 字符 串 ， 即 显 式 长 度 (explicit-length) 和 
隐 式 长 度 ( implicit-length)， 显 式 长 度 字符 串 由 一 系列 连续 排列 的 字符 组 成 ， 它 们 的 长 度 预 
先 已 经 算 好 并 与 字符 串 本 身 一 同 管理 。 比 如 PASCAL 就 使 用 这 种 管理 方法 。 隐 式 长 度 字符 
串 使 用 一 个 字符 串 终 结 符 (EOS， 通 常 为 0 ) 来 表示 字符 串 结束 ， 同 时 该 终结 符 还 可 用 于 辅 
助 一 些 字符 串 处 理 函数 ， 如 字符 串 长 度 计算 和 字符 串 连接 等 。 这 种 管理 方法 被 用 在 C++ 中 ， 
第 2 章 中 曾 讨论 过 (示例 程序 CountChars 和 ConcatStrings )。 

字符 串 处 理 容易 导致 较 高 的 CPU 占用 率 ， 可 能 比 我 们 想象 的 还 要 高 。 主 要 的 原因 是 
很 多 字符 串 处 理 函 数 需要 逐个 字符 或 以 若干 个 字符 组 合 起 来 对 字符 串 进行 处 理 。 男 外 ， 字 
符 串 处 理 函 数 还 广泛 使 用 循环 结构 ， 这 导致 处 理 器 的 前 端 指令 管道 的 使 用 不 够 优化 。 本 
节 将 要 介绍 的 x86-SSE 字符 串 处 理 指令 可 以 用 于 加 速 很 多 通用 的 字符 串 基础 运算 ， 包 括 
长 度 计算 、 比 较 操 作 和 子 串 查找 等 。 这 些 指令 还 可 以 显著 提高 字符 串 搜 索 和 语法 解析 的 
效率 。 

x86-SSE 包含 四 个 SIMD 字符 串 指令 ， 它 们 都 能 够 处 理 最 长 为 128 位 的 字符 串 片段 。 这 
些 指令 (R 11-1 ) 既 支 持 显 式 长 度 又 支持 隐 式 长 度 的 字符 串 。 表 中 有 两 种 输出 格式 选项 
index 和 mask， 这 些 选项 的 含义 后 面 会 讲 到 。 处 理 器 使 用 EFLAGS 寄存 器 中 的 状态 位 来 通 
报 字 符 串 指令 的 附加 结果 。 每 一 个 x86-SSE 字符 串 指令 都 需要 一 个 8 位 的 立即 数控 制 字 节 ， 
这 个 值 可 以 让 程序 员 来 选择 指令 选项 ， 包 括 字 符 的 大 小 (8 位 或 16 位 )、 字 符 比较 和 聚合 方 
法 ， 以 及 输出 格式 。 由 于 C++ 使 用 隐 式 长 度 字 符 串 ， 接 下 来 的 说 明 主 要 集中 在 pcmpistri 和 
pcmpistrm 两 个 指令 上 。 显 式 长 度 指令 pcmpestri 和 pempestrm 本 质 上 是 一 样 的 ， 只 是 字符 
串 片 段 的 长 度 必 须 用 寄存 器 EAX 和 EDX 来 指定 。 





p 
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表 11-1 x86-SSE 字符 串 指令 总 结 


助 记 符 字符 串 类 型 输出 格式 
pcmpestri 显 式 长 度 Index (ECX) 
pempestrm 显 式 长 度 Mask (XMMO) 
pempistri 隐 式 长 度 Index (ECX) 
pcmplstrm 隐 式 长 度 Mask (XMM0) 


x86-SSE 的 字符 串 指 令 非 常 强大 和 灵活 ， 但 缺点 是 指令 复杂 ， 使 一 些 程序 员 在 开始 接触 
时 很 困惑 。 为 了 尽量 减少 这 种 困惑 ， 我 们 会 集中 讲解 少数 几 个 常用 的 字符 串 处 理 操 作 ， 这 样 
可 以 为 更 高 级 的 字符 串 指令 的 使 用 打下 坚实 的 基础 。 如 果 读 者 想 进一步 学 习 高 级 x86-SSE F 
符 串 指 令 ， 请 阅读 Intel 和 AMD 的 参考 手册 ， 详 细 信息 已 经 在 附录 C 中 给 出 。 

图 11-1 显示 了 指令 pcmpistri 和 pcmpistrm 的 执行 流程 图 。 操 作 数 strA 和 strB 都 是 源 
操作 数 ， 能 够 存放 字符 串 片段 或 单独 的 字符 值 。 操 作 数 stra 必须 是 一 个 XMM 寄存 器 ， 操 
作 数 strB 可 以 是 一 个 XMM 寄存 器 或 存放 于 内 存 中 的 128 位 数值 。 操 作 数 imm 用 于 指定 指 





令 的 控制 选项 ， 如 流程 图 中 的 椭圆 框 所 示 。 表 11-2 描述 了 每 一 个 imm 控制 选项 的 含义 。 


pempistr(i/m) strA,strB,imm 








IntRes2 





i EFLAGS CF,ZF,SF,OF eund 


图 11-1 pempistrX 指令 的 流程 图 
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表 11-2 pcmpistrX 指令 的 控制 选项 含义 





控制 选项 值 描 述 
Data Format[1:0] 00 组 合 无 符号 单字 节 
01 I 
10 合 有 符号 单字 节 


11 号 双 字 节 
Aggregation[3:2] 00 任意 等 价 (匹配 字符 ) 
01 区 间 等 价 (匹配 某 范围 内 的 字符 ) 
10 逐个 等 价 (字符 串 比较 ) 
11 有 序 等 价 ( 子 串 查 找 ) 
Polarity[5:4] 00 取 正 (IntRes2[i] = IntRes1[i]) 
01 取 负 (IntRes2[i] = ~IntRes1[i]) 
10 掩 码 取 正 (IntRes2[i] = IntRes![i]) 
1 dena (Æ strB[i] 非法 ，IntRes2[i] = IntResl[i]; 否则 IntRes2[i] = —IntRes! [i]) 
Output Format[6] 0 pempistri-ECX: IntRes2 中 被 置 位 的 最 低位 的 索引 值 
1 pcmpistri-ECX: IntRes2 中 被 置 位 的 最 高 位 的 索引 值 
0 pempistrm-IntRes2 被 保存 为 XMM0 中 的 低位 掩 码 (高 位 被 清 零 ) 
1 pempistrm-IntRes2 被 保存 为 XMM0 中 的 单字 节 或 双 字 节 掩 码 


为 了 更 好 地 理解 pempisteX 指令 的 流程 图 以 及 每 个 控制 选项 的 含义 ， 我们 看 几 个 简单 
的 例子 。 假 设 有 一 个 字符 串 片段 ， 我 们 需要 创建 一 个 掩 码 来 指定 字符 串 中 大 写字 符 的 位 置 。 
例如 ， 掩 码 1000110000010010b 中 的 每 个 1 都 表示 字符 串 ”AblcDE23f4gHi5J6” 中 对 应 位 
置 上 的 字符 是 大 写字 符 。 我 们 可 以 创建 一 个 C++ 函数 来 生成 这 样 的 掩 码 ， 这 样 的 函数 需要 
一 个 循环 来 扫描 和 检测 字符 串 中 的 每 个 字符 ， 看 它 的 值 是 否 位 于 A 到 Z 的 区 间 内 ( 含 A 和 
Z)。 男 外 一 个 (或 许 是 更 好 的 ) 途径 是 使 用 pcmpistrm 指令 来 生成 这 个 掩 码 ， 如 图 11-2 所 
示 。 在 这 个 例子 里 ， 所 需 的 字符 区 间 和 字符 串 片段 被 分 别 加 载 到 寄存 器 XMMI 和 XMM2 
中 。 立 即 数控 制 值 00000100b 指定 pempistrm 指令 使 用 表 11-3 中 描述 的 选项 执行 。 


pcmpistrm xmm1, xmm2, 00000100b 


[oo [oon | 00h | 00h ooh [oon | ooh 00h | 00h | 00h | Ooh 00h | oon oon | z | 'A' | xmml 


xmm2 


00h | 00h oon [oon | ooh | oon [oon | oo 00h oo [ons oon | oo | oon 48h = 


EFLAGS: CF=1 ZF-0 SF-1 OF=1 
图 11-2 使 用 pcmpistrm 指令 创建 大 写字 符 的 位 掩 码 

















zx 11-3 pcmpistrm xmm1,xmm2,00000100b 的 控制 功能 
位 域 值 控制 功能 





0 保留 ， 必 须 为 0 

6 0 IntRes2 掩 码 不 展开 为 字 节 

5 0 未 使 用 ， 因 为 IntResl 不 需 取 反 
4 0 不 对 IntResl 取 反 

3:2 01 使 用 区 间 等 价 比较 与 


1:0 00 源 数据 格式 为 组 合 无 符号 单 字 节 
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图 11-2 中 ，XMMI 低位 的 两 个 字 节 包 含 了 所 需 字符 区 间 的 上 限 和 下 限 ，XMM2 包含 了 
字符 串 片 段 。 注 意 XMM2 中 的 字符 串 片段 使 用 小 端 方 式 存放 ， 这 种 存放 方式 是 在 用 movdqa 
或 movdqu 指令 加 载 字 符 串 片段 时 自动 做 的 。pcmpistrm 指令 进行 的 大 部 分 运算 都 发 生 在 图 
11-1 中 被 标 为 Compare and Aggregation (比较 和 聚合 ) 的 方 框 中 。 处 理 器 在 这 里 执行 的 具体 
操作 视 所 选 的 比较 和 聚合 方法 的 不 同 而 有 所 区 别 ， 这 在 后 续 的 示例 程序 中 会 详细 讲述 。 比 较 
和 聚合 操作 的 输出 被 保存 到 IntRes1， 其 中 包含 XMM2 中 的 大 写字 符 的 位 掩 码 。 控 制 值 指定 
IntResl 中 的 中 间 结 果 不 需要 反 转 ， 这 意味 着 IntRes2 中 的 值 与 IntResl 中 相同 。 同 时 控制 值 
还 指定 16 位 的 掩 码 不 需要 扩展 为 字 节 值 。 最 终 的 掩 码 值 被 保存 在 XMMO 中 最 低位 的 两 个 字 
节 中 ， 且 排列 顺序 与 XMM2 中 的 字符 串 片 段 的 小 端 排列 顺序 一 致 。 

图 11-3 显示 了 pcmpistrm 指令 执行 的 更 多 实例 。 第 一 个 实例 与 图 11-2 中 的 实例 类 似 ， 
唯一 的 差异 是 输出 格式 的 第 6 位 被 置 为 1， 这 意味 着 掩 码 值 被 展开 为 字 节 值 ， 这 对 使 用 简 
单 布 尔 表 达 式 对 字符 串 片 段 进 行进 一 步 处 理 非 常 有 用 。 第 二 个 实例 展示 了 pempistrm 指令 
用 于 多 个 字符 区 间 。 在 这 个 例子 中 ，XMMI1 包含 两 个 区 间 对 : 一 个 针对 大 写字 符 ， 一 个 针 
对 小 写字 符 。 图 11-3 中 的 最 后 一 个 例子 展示 了 pempistrm 48 9 HT £5 VI EX AY EOS 字符 
的 字符 串 片段 。 注 意 最 终 的 掩 码 值 不 包含 EOS 字符 后 面 的 位 于 字符 区 间 中 的 字符 。 另 外 ， 
EFLAGS.ZF 被 置 1 表示 字符 串 片段 中 含有 EOS 字符。 最 后 一 个 pempistrm 实例 如 图 11-4 
所 示 ， 它 展示 了 字符 串 片 段 中 的 单个 字符 匹配 ， 实 现 方式 是 在 “比较 和 聚合 ”控制 选项 中 选 
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pempistrm xmm1, xmm2, 01000100b 
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EFLAGS: CF=1 ZF=0 SF=1 OF=1 


pempistrm xmm1, xmm2, 01000100b 
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EFLAGS: CF-1 ZF=0 SF=1 OF=1 








pempistrm xmm1, xmm2, 01000100b 
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EFLAGS: CF=1 ZF-1 SF=1 OF=1 
图 11-3 pempistrm 指令 的 执行 实例 
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pempistrm xmm1, xmm2, 01000000b 


i | [m [os n [oon om on 7 [= [ T] n 
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'A' | xmm2 
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EFLAGS: CF-1 ZF=0 SF=1 OF=1 


图 11-4 使 用 pempistrm 指令 来 匹配 字符 


可 以 用 pcmistri 指令 来 确定 一 个 字符 串 片段 中 某 个 或 菜 几 个 字符 的 索引 。 该 指令 的 一 个 
用 途 就 是 在 某 字符 串 片段 中 寻找 EOS 字符 的 索引 ， 如 图 11-5 所 示 。 在 第 一 个 实例 中 ， 字 符 
串 片 段 不 包含 EOS 字符 ， 在 这 种 情况 下 pcmpistri 指令 的 执行 会 将 EFLAGS.ZF HA, HA 
字符 串 片段 不 包含 EOS 字符 。 同 时 该 指令 还 会 在 ECX 中 保存 已 经 过 检测 的 字符 数量 ， 这 个 
值 恰好 是 一 个 非法 的 索引 值 。 在 第 二 个 实例 里 ，EFLAGS.ZF 被 置 位 以 表示 EOS 字符 存在 ， 
且 寄 存 器 ECX 包含 了 与 其 对 应 的 索引 值 。 在 前 后 两 个 实例 中 ， 控 制 选项 指示 的 比较 和 聚合 
方法 为 “任意 等 价 ”， 且 IntRes1 保存 的 中 间 结 果 被 倒置 。 


pempistri xmm1, xmm2, 00010100b 


ze TeTe TS T STSTSTSTSTSTSTS] we 








pempistri xmm1, xmm2, 00010100b 
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EFLAGS: CF=1 ZF=1 SF=1 OF=0 à Etui ecx 


图 11-5 使 用 pempistri 寻找 某 个 字符 串 片段 中 的 EOS 字符 


图 11-6 包含 了 对 pcmpistri 指令 执行 过 程 更 加 详细 的 解释 。 在 处 理 器 内 部 ， 处 理 器 使 用 
比较 与 聚合 类 型 来 选择 一 个 比较 与 聚合 的 方法 ， 并 使 用 该 方法 来 比较 指定 操作 数 中 的 所 有 字 
符 对 。 在 当前 的 实例 中 ， 所 选 的 聚合 类 型 是 “区 间 等 价 ”， 表 11-4 给 出 了 具体 的 比较 操作 。 
逻辑 上 来 说 ， 处 理 器 是 在 构建 一 个 8 x 8 的 矩阵 ， 该 矩阵 中 存放 了 字符 对 的 比较 结果 ， 处 理 
器 使 用 这 个 矩阵 来 计算 IntResl (对 单字 节 字 符 生 成 的 是 一 个 16 x 16 的 矩阵 )。EOS 终结 符 
及 其 后 面 的 字符 对 比 结果 被 强制 设 为 0。 在 构建 了 比较 矩阵 之 后 ， 处 理 器 使 用 清单 11-1 中 的 
算法 来 计算 IntRes1。 这 个 算法 随 所 选 的 比较 与 聚合 方法 的 不 同 而 有 所 变化 。IntRes2 的 值 是 
通过 倒置 IntResl 中 的 值得 出 的 ， 正 如 控制 值 中 的 Polarity ( 极 性 ) 字段 所 指定 的 。EOS 字符 
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的 索引 值 与 IntRes2 中 第 一 个 被 置 为 1 的 比特 位 相对 应 。 


pcmpistri xmml, xmm2, 00010101b 
xmml 
b= «o 5 Ks 5e SE »c € IRsl IntRes2 
最 低 00h. 
有 效 字 











EFLAGS:CF-1 ZF-1 SF=1 OF=0 ecx | 


图 11-6 pempistri 指令 的 详细 图 示 


表 11-4 pcmpistri 指令 的 比较 操作 真 值 表 






XMM1 索引 
CmpRes[i, j] = (xmm2[i] >= xmm1[j]) ? 1 : 0; 
CmpRes[i, j] = (xmm2[i] <= xmm1[j]) ? 1 : 0; 






清单 11-1 IntRes1 的 计算 
for (i = 0; i < 8; i++) 
{ 
for (j = 0; J < 8; j += 2) 
IntRes[i] |= CmpRes[i, j] & CmpRes[i, j+1]; 
t 


为 了 在 汇编 语言 函数 中 使 用 x86-SSE 字符 串 指 令 ， 我 们 必须 学 习 若 干 个 编程 中 的 注意 
事项 。 与 多 字 节 整数 和 浮 点 数 不 一 样 ， 字 符 串 在 内 存 中 没有 天 然 的 对 齐 边界 。 这 意味 着 字 
符 串 片段 通常 是 使 用 movdqu 指令 来 加 载 到 XMM 寄存 器 中 的 ，movdqa 指令 只 有 在 字符 串 
片段 进行 过 适当 的 对 齐 操作 以 后 才 可 以 使 用 。 使 用 SIMD 技术 处 理 字符 串 需要 程序 员 确保 
EOS 字符 之 后 的 任何 字符 都 不 会 被 无 意 更 改 。 同 时 还 需要 注意 ,在 内 存 中 读 写 接近 于 某 个 
页 面 末尾 的 字符 串 时 很 可 能 需要 处 理 器 来 访问 下 一 个 页 面 ， 如 图 11-7 所 示 。 在 这 种 情况 下 ， 
如 果 接 下 来 的 页 面 不 属于 当前 进程 ， 处 理 器 异常 就 会 被 触发 。 下 一 节 中 的 代码 实例 展示 了 若 
干 种 技术 用 来 防止 这 个 问题 。 
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pagen + 1 









4082 






movdqu xmm1,[ebx] ;处 理 器 访问 page n All page n + 1 X= 任 意 


图 11-7 位 于 内 存 页 面 边界 处 的 字符 串 加 载 


11.2 ”字符 串 编 程 

上 节 中 我 们 集中 讨论 了 x86-SSE 字符 串 指 令 的 关键 内 容 。 在 这 一 节 中 ， 我 们 将 学 习 如 
何 使 用 pempistri 和 pcmpistrm 指令 对 字符 串 做 常规 操作 。 我 们 还 将 学 到 一 些 使 用 SIMD 技 
术 处 理 字符 串 必须 采用 的 编程 策略 。 


11.2.1 计算 字符 串 长 度 


我 们 将 要 学 习 的 第 一 个 x86-SSE 字符 串 示 例 程序 名 叫 SseTextStringCalcLength。 这 个 程 
序 展示 了 如 何 使 用 pempistri 指令 来 计算 一 个 以 null 结尾 的 字符 串 的 长 度 。 同 时 该 程序 还 将 
展示 如 何 应 付 SIMD 文本 处 理 中 的 一 些 常见 问题 ， 这 些 问 题 我 们 已 经 在 本 节 早 些 时 候 讨 论 
过 。 清 单 11-2 和 清单 11-3 中 分 别 给 出 了 这 个 程序 的 C++ 和 汇编 语言 源 代码 。 


清单 11-2 SseTextStringCalcLength.cpp 
#include "stdafx.h" 
#include «malloc.h» 
#include <string.h> 
extern "C" int SseTextStringCalcLength (const char* s); 


const char * TestStrings[] - 


{ 
"0123456", // Length = 7 
"0123456789abcde", // Length = 15 
"0123456789abcdef" , // Length = 16 
"0123456789abcdefg" , // Length - 17 
"0123456789abcdefghi jklmnopqrstu" , // Length - 31 
"0123456789abcdefghi jklmnopqrstuv", // Length - 32 
"0123456789abcdefghijklmnopqrstuvw", // Length = 33 
"0123456789abcdefghijklmnopqrstuvwxyz", // Length = 36 
m // Length = 0 

h 


const int OffsetMin - 4096 - 40; 
const int OffsetMax = 4096 + 40; 
const int NumTestStrings - sizeof(TestStrings) / sizeof(char*); 


void SseTextStringCalcLength(void) 
{ 
const int buff_size = 8192; 
const int page size = 4096; 
char* buff = (char*) aligned malloc(buff size, page size); 
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printf("\nResults for SseTextStringCalcLength()\n"); 
for (int i = 0; i < NumTestStrings; i++) 
{ 
bool error = false; 
const char* ts = TestStrings[i]; 
printf("Test string: \"%s\"\n", ts); 
for (int offset = OffsetMin; offset <= OffsetMax; offset++) 
{ 
char* s2 = buff + offset; 
memset (buff, 0x55, buff size); 
strcpy_s(s2, buff_size - offset, ts); 
int len1 = strlen(s2); 
int len2 = SseTextStringCalcLength_(s2); 
if ((len1 != len2) 88 !error) 
error = true; 
printf(" String length compare failed!\n"); 
printf(" buff: Ox%p offset: %5d s2: Ox%p", buff, offset, s2); 
printf(" lena: %5d len2: %5d\n",len1, len2); 
} 
} 
if (lerror) 
printf("No errors detected\n"); 
} 
} 
int tmain(int argc, _TCHAR* argv[]) 
{ 
SseTextStringCalcLength() ; 
return 0; 
} 


清单 11-3 SseTextStringCalcLength_.asm 


-model flat,c 
.code 


extern "C" int SseTextStringCalcLength (const char* s); 


; 描述 : 下 面 的 函数 使 用 x86-SSE 指令 pcmpistri 计算 一 个 字符 串 的 长 度 
; 返回 值 字符 串 长 度 
需要 SSE4.2 支持 


SseTextStringCalcLength_ proc 
push ebp 
mov ebp,esp 


; 为 字符 串 长 度 计算 初始 化 寄存 器 
mov eax, [ebp+8] ;eax ='s' 
sub eax,16 ; 为 循环 中 的 使 用 调整 eax 
mov edx,off01h 
movd xmm1,edx ;xmm1[15:0] = 字符 区 间 
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; 计算 下 一 个 地 址 并 检测 dapi 


aA: add eax,16 ;eax = 下 一 个 文本 块 

mov edx,eax 

and edx,offfh jedx = 地 址 的 低 12 位 

cmp edx,Offoh 

ja NearEndofPage ; 若 距离 页 面 边 界 已 小 于 16 字 节 则 跳 转 
; 检测 当前 文本 块 中 的 '\0' SG 

pempistri xmi, [eax],14h ; 字符 区 间 与 文本 相 比 较 

jnz @B ; 如 果 未 找到 '\0' 字 节 则 跳 转 


; 在 当前 文本 块 中 找到 “'\0' 字 节 (索引 位 于 ECX H) 
; 计算 并 返回 字符 串 长 度 


add eax,ecx ;eax ='\0' 字 节 的 指针 
sub eax, [ebp+8] ; eax = 最 终 字符 串 长 度 
pop ebp 

ret 


; 通过 检查 每 个 字符 来 寻找 '\0' 终结 符 


NearEndOfPage: 
mov ecx,4096 ; ecx = 页 面 的 大 小 ， 单 位 为 字 节 
sub ecx,edx ; ecx = 要 检查 的 字 节 数 
QQ: : mov dl,[eax] ; dl = 下 一 个 字符 串 中 的 字符 
or dl,dl 
jz FoundNull > 若 找 到 '\0' MBH 
inc eax ; eax = 下 一 个 字符 的 指针 
dec ecx 
jnz @B ; 若 还 有 字符 需要 检查 则 跳 转 


> 剩 下 的 字符 串 可 以 使 用 16 字 节 块 来 查找 
; EAX 现 已 对 齐 于 16 字 节 边界 


sub eax,16 ; 为 循环 中 的 使 用 调整 eax 
QQ: add eax,16 ; eax = 下 一 个 文本 块 的 指针 
pcmpistri xmm1,[eax],14h ; 字符 区 间 与 文本 相 比 较 
jnz @B ; 如 果 未 找到 '\0' 字 节 则 跳 转 
; 在 当前 文本 块 中 找到 '\0' SB (索引 位 于 ECX m) 
add eax,ecx ; eax = '\0' 字 节 的 指针 
; 计算 并 返回 字符 串 长 度 
FoundNull: 
sub eax, [ebp+8] ; eax = 最 终 字符 串 长 度 
pop ebp 
ret 
SseTextStringCalcLength_ endp 
end 


SseTextStringCalcLength 程序 的 C++ 部 分 (清单 11-2). 一 开始 就 分 配 了 一 块 页 面 边 
界 对 齐 的 内 存 。 这 个 内 存 块 用 来 初始 化 不 同 的 测试 场景 ， 以 便 验证 x86-32 汇编 语言 B 
数 SseTextStringCalcLength 可 以 正确 处 理 位 于 内 存 页 面 尾 部 的 字符 串 。 这 些 场景 中 包 
fi EOS 终结 符 位 于 一 个 内 存 页 面 的 最 后 一 个 字 节 的 情形 。 不 可 和 否认， 程序 中 的 测试 代 
码 有 些 暴 力 ， 但 它 可 以 验证 完全 位 于 某 一 页 面 内 或 者 跨 页 面 的 字符 串 都 能 被 正确 处 理 。 
SseTextStringCalcLength_ 明 数 返回 的 每 个 字符 串 长 度 都 会 与 C++ 运行 时 函数 strlen 的 计算 
结果 相 比 较 。 如 果 长 度 不 一 致 ， 测 试 代 码 就 会 显示 错误 信息 。 

汇编 语言 函数 SseTextStringCalcLength ( 见 清 单 11-3) 首先 将 字符 串 指针 s 加 载 到 
寄存 器 EAX 中 。sub eax, 16 这 条 指令 将 EAX 中 的 指针 值 做 了 调整 以 便 在 循环 处 理 中 能 够 
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fii HI. pempistri 指令 所 需 的 区 间 值 被 加 载 到 寄存 器 XMM2 中 。 在 第 一 个 循环 处 理 的 最 开 

fi, add eax, 16 指令 将 EAX 寄存 器 的 值 更 新 ， 使 其 指向 内 存 中 下 一 个 16 字 节 字符 块 。 在 
循环 开始 的 地 方 使 用 常数 来 更 新 EAX 的 值 可 以 省 去 跳 转 指令 ， 同 时 也 可 以 防止 循环 执行 
依赖 的 情形 出 现 ， 这 种 情况 会 极 大 地 影响 性 能 。( 在 一 个 循环 中 重复 执行 某 一 条 指令 ， 且 
该 指令 的 执行 依赖 于 上 一 次 迭代 的 结果 时 ,循环 执行 依赖 的 情形 就 会 发 生 。 要 了 解 更 多 关 
于 循环 执行 依赖 的 信息 ， 请 参考 Intel 64 和 IA-32 架构 优化 参考 手册 。) 接 下 来 ， 程 序 检测 
EAX 中 的 地 址 以 确认 下 一 个 字符 串 片 段 是 否 位 于 内 存 页 面 的 尾部 。 由 于 当前 我 们 尚 不 知道 
一 个 页 面 是 否 属于 当前 进程 ， 程 序 会 执行 一 个 条 件 跳 转 指令 以 避免 访问 到 跨 页 面 的 字符 串 
片段 。 

如 果 一 个 字符 串 片 段 没 有 位 于 内 存 页 面 的 尾部 ， 程 序 就 使 用 pempistri 指令 来 确定 EOS 
字符 是 否 位 于 字符 串 片 段 内 。 如 果 EOS 字符 被 找到 (EFLAGS.ZF 被 置 1 )， 最 终 的 字符 串 长 
度 会 被 算出 并 返回 给 调用 者 。 和 否则 ， 循 环 会 继续 。pcmpistri 指令 的 控制 选项 被 设 为 无 符号 单 
字 节 、“ 区 间 等 价 ” 以 及 IntResl 反问 。 

标识 符 NearEndOfPage 后 面 的 代码 对 每 个 靠近 内 存 页 面 尾部 的 字符 单独 进行 测试 ， 以 
确认 其 中 是 否 有 EOS 字符 。 如 果 EOS 字符 被 找到 ， 最 终 的 字符 串 长 度 会 被 算出 来 并 返 
回 给 调用 者 。 如 果 EOS 字符 在 当前 页 面 中 没有 找到 ， 那 么 该 字符 串 就 是 跨 页 面 的 ， 且 
使 用 pcmpistri 指令 继续 寻找 EOS 字符 就 是 安全 的 。 注 意 这 里 检查 是 否 位 于 页 面 边界 已 
无 必要 ， 因 为 EAX 中 的 指针 值 已 经 是 16 字 节 边界 对 齐 的 了 。 还 要 注意 的 是 ， 这 时 可 以 
使 用 movdqa 指令 了 ， 因 为 字符 串 指针 已 经 做 了 适当 的 对 齐 。 输 出 11-1 给 出 了 示例 程序 

SseTextStringCalcLength 的 执行 结果 。 


输出 11-1 示例 程序 SseTextStringCalcLength 


Results for SseTextStringCalcLength() 

Test string: "0123456" 
No errors detected 

Test string: "0123456789abcde" 
No errors detected 

Test string: "0123456789abcdef" 
No errors detected 

Test string: "0123456789abcdefg" 
No errors detected 

Test string: "0123456789abcdefghijklmnopqrstu" 
No errors detected 

Test string: "0123456789abcdefghijklmnopqrstuv" 
No errors detected 

Test string: "0123456789abcdefghijklmnopqrstuvw" 
No errors detected 

Test string: "0123456789abcdefghi;jklmnopqrstuvwxyz" 
No errors detected 

Test string: "" 
No errors detected 





11.2.2 ”字符 替换 


我 们 将 要 学 习 的 第 二 个 x86-SSE 字符 串 示 例 程序 名 为 SseTextStringReplaceChar。 这 
个 程序 对 字符 串 进 行 扫描 并 将 特定 的 字符 替换 掉 。 清 单 11-4 和 清单 11-5 分 别 给 出 了 
SseTextStringReplaceChar.cpp 和 SseTextStringReplaceChar .asm 的 源 代码 。 
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清单 11-4 SseTextStringReplaceChar.cpp 


#include "stdafx.h" 
#include <string.h> 
#include <malloc.h> 


extern "C" int SseTextStringReplaceChar (char* s, char old char, char new char); 


const char* TestStrings[] = 

( 
"*Red*Green*Blue*", 
"Cyan*Magenta Yellow*Black Tan", 
"White*Pink Brown Purple*Gray Orange*", 


"Beige Silver Indigo Fuchsia Maroon", 
thakkk 
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H 


const char OldChar = '*'; 

const char NewChar = '#'; 

const int OffsetMin - 4096 - 40; 

const int OffsetMax = 4096 + 40; 

const int NumTestStrings - sizeof(TestStrings) / sizeof (char*); 
const unsigned int CheckNum = 0x12345678; 


int SseTextStringReplaceCharCpp(char* s, char old char, char new char) 


{ 
char c; 
int n = 03 


while ((c = *s) l= 'No') 


if (c == OldChar) 


{ 
*s = NewChar; 
net; 
} 
S++; 
} 
return n; 
) 
void SseTextStringReplaceChar(void) 
{ 


const int buff_size = 8192; 
const int page size = 4096; 
char* buff1 = (char*) aligned_malloc(buff_size, page_size); 
char* buff2 = (char*) aligned malloc(buff size, page size); 


printf("\nResults for SseTextStringReplaceChars()\n"); 
printf("OldChar = 'Xc'NewChar = ‘%c'\n", OldChar, NewChar) ; 


for (int i = 0; i < NumTestStrings; i++) 
{ 

const char* s = TestStrings[i]; 

int s len - strlen(s); 


for (int offset = OffsetMin; offset «- OffsetMax; offset++) 


{ 
bool print = (offset == OffsetMin) ? true : false; 
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char* s1 = buff1 + offset; 
char* s2 = buff2 + offset; 
int size - buff size - offset; 
int ni = -1, n2 = -1; 
strcpy s(si, size, s); 
*(s1 + s len + 1) = OldChar; 
*((unsigned int*)(s1 + s len + 2)) = CheckNum; 
strcpy s(s2, size, s); 
*(s2 + s len + 1) = OldChar; 
*((unsigned int*)(s2 + s len + 2)) = CheckNum; 
if (print) 
printf("Ansi before replace: \"%s\"\n", s1); 
n1 = SseTextStringReplaceCharCpp(s1, OldChar, NewChar); 
if (print) 
printf("s1 after replace: \"%s\"\n", s1); 
if (print) 
printf("\ns2 before replace: \"%s\"\n", s2); 
n2 = SseTextStringReplaceChar (s2, OldChar, NewChar); 
if (print) 
printf("s2 after replace: \"%s\"\n", s2); 
if (strcmp(si, s1) != 0) 
printf("Error - string compare failedin"); 
if (n1 !- n2) 
printf("Error - character count compare failed in"); 
if (*(s1 + s len + 1) !- OldChar) 
printf("Error - buff1 OldChar overwrite Wn"); 
if (*(s2 + s len + 1) != OldChar) 
printf("Error - buff2 OldChar overwrite Wn"); 
if (*((unsigned int*)(s1 + s len + 2)) != CheckNum) 
printf("Error - buff1 CheckNum overwrite Wn"); 
if (*((unsigned int*)(s2 + s len + 2)) !- CheckNum) 
printf("Error - buff2 CheckNum overwrite Wn"); 
) 
aligned free(buff1); 
aligned free(buff2); 
} 


int tmain(int argc, TCHAR* argv[]) 


SseTextStringReplaceChar(); 
return 0; 


清单 11-5 SseTextStringReplaceChar asm 
.model flat,c 
.const 
align 16 


PxorNotMask db 16 dup(offh) ; pxor 3E 38 dE TE 82 
.code 


; extern "C" int SseTextStringReplaceChar (char* s, char old char, char new char); 


J 
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; 描述 : 下 面 的 函数 将 给 定 的 字符 串 中 的 所 有 old char 替换 成 new_char 


;需要 SSE4.2 和 POPCNT 功能 支持 


SseTextStringReplaceChar proc 
push ebp 
mov ebp,esp 
push ebx 
push esi 
push edi 


; Initialize 
mov eax, [ebp+8] 
sub eax,16 
xor edi,edi 


; 建立 组 合 的 old_char 和 new char 
movzx ecx,byte ptr [ebp+12] 
movd xmm1,ecx 
movzx ecx,byte ptr [ebp+16] 
movd xmm6,ecx 
pxor xmm5,Xmm5 
pshufb xmm6,xmm5 


movdqa xmm7,xmmword ptr [PxorNotMask] 


jeak = 's 
;为 后 面 的 循环 调整 EAX 的 值 
jedi = 被 替换 的 字符 个 数 


;xmm1[7:0] = old char 
;ecx = new char 


;xmm6 = 组 合 的 new char 


;xmm7 = pxor 逻辑 非 掩 码 


; 计算 下 一 个 字符 串 地 址 并 检查 是 否 已 经 接近 页 面 尾部 


add eax,16 

mov edx,eax 

and edx,offfh 
cmp edx,Offoh 

ja NearEndOfPage 


; 通过 比较 当前 文本 块 来 查找 字符 
movdqu xmm2, [eax] 
pcmpistrm xmmi,xmm2,40h 
setz cl 
jc FoundMatchi 
jz Done 
jmp Loopi 


Loop1: 


; 发 现 匹 配 字符 (xmm0 = 匹配 掩 码 ) 
; 更 新 位 于 EDI 中 的 字符 匹配 计数 
FoundMatch1: 

pmovmskb edx,xmmo 

popcnt edx,edx 

add edi,edx 


; 将 所 有 old char 替换 成 new_char 
movdqa xmm3 ,xmmO 
pxor xmmO,xmm7 
pand xmmO,xmm2 
pand xmm3,xmm6 
por xmmo,xmm3 
movdqu [eax],xmmo 
or cl,cl 
jnz Done 
jmp Loopi 


; 在 页 面 尾 部 将 old char 替换 为 new char 
NearEndOfPage: 

mov ecx,4096 

sub ecx,edx 


;eax = 下 一 个 文本 块 


;edx = 地 址 的 低 12 位 
; 若 距离 页 面 尾 部 小 于 16 字 节 则 跳 转 


;加 载 下 一 个 文本 块 
;检测 是 否 与 old_char 匹配 
; 若 找 到 '\0" 则 置 位 

; 若 发 现 匹 配 则 跳 转 

; 若 找 到 '\0' MBE 

; 若 未 发 现 匹配 则 跳 转 


;edx = 匹配 掩 码 
;计算 匹配 的 次 数 
;edi = 总 匹配 数 


;xmm3 = DUCA 
; 移 除 old char 


;插入 new char 
;保存 更 新 过 的 字符 串 
;当前 块 中 是 否 包 含 '\0'? 
ESSE 
;继续 处 理 字符 串 


; 页 面 大 小 ， 单 位 为 字 节 
; ecx = 要 检查 的 字 节 数 
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mov dl, [ebp+12] 
mov dh, [ebp+16] 


Loop2: mov bl, [eax] 
or bl,bl 
jz Done 
cmp dl,bl 
jne @F 
mov [eax],dh 
inc edi 

@@: inc eax 
dec ecx 
jnz Loop2 

320 sub eax,16 


;dl = old char 
jdh = new char 


; 加 载 下 一 个 输入 的 字符 

; 若 发 现 '\0 ' 则 跳 转 

; 若 不 匹配 则 跳 转 

; 将 old char 替换 成 new_char 
; 更 新 替换 过 的 字符 数量 

;eax = 下 一 个 字符 的 指针 


; 循环 直到 页 面 尾 部 
; 调整 eax 的 值 以 避免 跳 转 


; 处 理 剩 下 的 字符 串 。 注 意 : 此 时 可 以 使 用 movdqa 


Loop3: add eax,16 
movdqa xmm2, [eax] 
pcmpistrm xmm1, xmm2,40h 
setz cl 
jc FoundMatch3 
jz Done 
jmp Loop3 


FoundMatch3: 
pmovmskb edx,xmmo 
popcnt edx,edx 
add edi,edx 


; 将 所 有 old char 替换 为 new_char 

movdqa xmm3,xmmo 

pxor xmmo,xmm7 

pand xmmo,xmm2 

pand xmm3,xmm6 

por xmmo,xmm3 

movdga [eax],xmmo 

or cl,cl 

jnz Done 

jmp Loop3 


Done: mov eax,edi 

pop edi 

pop esi 

pop ebx 

pop ebp 

ret 
SseTextStringReplaceChar endp 

end 


;eax = 下 一 个 文本 块 

; 加 载 下 一 个 文本 块 

; 检测 是 否 与 o1d_char 匹配 
SARE '\0 ' 则 置 位 

; 若 发 现 匹配 则 跳 转 

; 若 发 现 '\0' 则 跳 转 

; 若 未 发 现 匹配 则 跳 转 


; edx = Dace 
; 计算 匹配 的 次 数 
sedi = 总 匹配 次 数 


; xmm3 = Ut EGER 

; 将 所 有 old char 擦 除 
;插入 new char 

; 保存 更 新 过 的 字符 串 

; 当前 块 中 是 否 包 含 '\0'? 
; 若 包 含 则 跳 转 

; 继续 处 理 字 符 串 


; eax = 被 替换 的 字符 个 数 


源 文件 SseTextStringReplaceChar.cpp ( 见 清单 11-4 ) 的 开始 部 分 是 一 个 名 为 SseText- 
StringReplaceCharCpp ÉJ PK Zt, X PR CS ER. fF. C++ 版 本 的 字符 替换 算法 。 为 了 验证 两 个 字 
FF FF Hh PRCA IEE, PRA SseTextStringReplaceChar 初始 化 了 若干 个 测试 用 例 。 由 于 汇编 
版 本 字符 替换 算法 会 使 用 SIMD 技术 来 更 新 字符 串 ， 用 来 替换 的 字符 和 一 个 检验 数 会 被 写 和 人 
EOS 字符 后 面 的 内 存 缓冲 区 中 。 这 个 签名 可 用 来 检查 EOS 字符 后 面 的 字 节 是 否 被 错误 地 改 
写 。 与 上 一 个 示例 程序 一 样 ， 函 数 SseTextStringReplaceChar 也 会 将 各 个 测试 字符 串 复制 到 
内 存 缓 冲 区 中 多 个 不 同 的 位 置 ， 以 便 验证 位 于 内 存 页 面 末尾 和 跨 页 面 的 字符 串 都 能 得 到 正确 


的 处 理 。 
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在 汇编 语言 函数 SseTextStringReplaceChar ( 见 清单 11-5 ) 的 开始 部 分 ， 它 将 EAX 初始 化 ， 
指向 字符 串 。 寄 存 器 EDI 被 设 为 0， 并 用 来 记录 被 替换 掉 的 字符 的 个 数 。 参 数 old char 和 new_ 
char 被 分 别 加 载 到 寄存 器 XMMI 和 XMM6 中 。 注 意 old_char 只 占用 了 XMMI1 的 最 低位 字 节 
( XMMI 的 其 余 字 节 为 0)， 而 new char 则 驻 留 于 XMM6 的 每 个 字 节 当中 。pshufb xmm6,xmm5 
指令 (XMM5 包含 全 零 ) 创建 了 一 个 new char 的 组 合 版 本 (也 就 是 说 ，XMM5 的 每 个 字 节 中 的 
值 都 等 于 new_char)， 这 个 值 会 被 用 于 替换 操作 之 中 。XMM7 中 加 载 了 一 个 字符 求 反 的 掩 码 值 。 

在 Loop] 一 开始 ， 程 序 就 检测 EAX 中 的 字符 串 指针 以 确定 下 一 个 字符 串 片 段 是 否 跨越 
了 页 面 边 界 。 如 果 当 前 字符 串 片段 不 位 于 一 个 页 面 的 尾部 ， 就 使 用 movdqu 指令 将 其 加 载 
到 XMM2 中 。pcmpistrm xmml,xmm2,40h 指令 用 于 检测 当前 的 字符 串 片段 中 是 否 含有 old_ 
char 中 的 字符 。 该 指令 的 控制 值 被 指定 为 无 符号 组 合 字 节 、“ 任 意 等 价 ” 以 及 字 节 掩 码 。 如 
果 发 现 了 匹配 的 字符 ,那么 EFLAGS.CF 就 会 被 置 位 ， 如 果 当 前 字符 串 片 段 中 发 现 了 EOS 
FIF, IWA EFLAGS.ZF 就 会 被 置 位 。 值 得 注意 的 是 ， 这 两 种 情形 并 不 是 互 斥 的 ， 这 也 是 为 
什么 setz cl 指令 会 被 用 来 保存 EFLAGS.ZF 的 状态 以 备 后 续 使 用 。 在 pcmpistrm 指令 执行 过 
Ja, XMMO 中 包含 了 匹配 字符 的 掩 码 ( 0x00 表示 不 匹配 ，0x 作 表示 匹配 )。 

标识 符 FoundMatchl 后 面 的 代码 片段 会 更 新 匹配 字符 的 计数 并 进行 组 合 字 符 蔡 换 。 指 
4- pmovmskb edx,xmm0 (移动 字 节 掩 码 ) 使 用 XMM0 中 的 每 一 个 字 节 的 最 高 位 创建 一 个 
掩 码 ， 然 后 将 这 个 掩 码 保 存 到 EDX 中 的 最 低位 双 字 节 中 (高 位 双 字 节 以 0 填充 )。 指 令 
popentedx,edx (返回 被 置 为 1 的 位 的 个 数 ) 对 EDK 中 被 置 位 的 位 进行 计数 ， 这 个 计数 就 等 
于 匹配 到 的 字符 的 个 数 。 这 个 计数 后 来 被 累加 到 EDI 寄存 器 中 ，EDI 寄存 器 保存 了 匹配 字符 
的 总 个 数 。 图 11-8 展示 了 将 old. char 中 的 字符 替换 为 new_char 中 的 字符 的 技术 。 在 组 合 字 
符 替 换 操作 过 后 ， 程 序 的 控制 权 被 转移 到 Loop] 的 开始 处 ， 若 当前 字符 串 中 包含 EOS 终结 
符 ， 则 控制 权 被 转移 到 函数 结语 处 。 


初始 XMM 寄存 器 值 


m [oo | oon oo oon | sm oo [ons oon ook [oon m [ons oos [oon | rm | Xg 
; xmm3 
viele eee fe fel pepe pe] e [ef | me 
elelele|elelel ele lel eee le] ee | m 
imm | ama | am | sm | emn gem en [sm m em m | em | f | so 


pxor xmm0, xmm7 


px] Eco pae ono on eje o [|n] mao 


pand xmm0, xmm2 


paje Pd p pae ene pn od n poor ob] xao 


pand xmm3, xmm6 


Fe Fel bed OR UON [GONE Ton ae lan Fw] sna 


por xmm0, xmm3 


Epson vg ee a e] e] mo 


图 11-8 组 合 字符 替换 技术 的 图 示 
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标识 符 NearEndOfPage 标识 了 一 个 代码 段 的 开始 ， 该 段 代 码 对 位 于 页 面 尾部 的 字符 进 
行 替换 。 每 个 字符 会 被 单独 检测 以 确认 其 是 否 与 old_char 匹配 ， 若 匹配 则 被 蔡 换 为 new_ 
char。 这 段 代码 还 会 检测 每 个 字符 是 否 为 EOS 终结 符 。 如 果 找 到 EOS 终结 符 ， 循 环 替 换 的 
操作 就 会 结束 。 

在 处 理 完 了 位 于 页 面 尾 部 的 字符 以 后 ， 函 数 就 可 以 继续 使 用 pcmpistrm 指令 来 进行 
SIMD 字符 匹配 了 。 由 于 此 时 寄存 器 EAX 已 经 位 于 16 字 节 边界 ， 程 序 可 以 使 用 movdqa 指 
令 来 将 剩 下 的 字符 串 片段 加 载 到 XMM2 中 。 标 识 符 Loop3 后 面 的 循环 处 理 采 用 了 相同 的 办 
法 来 替换 匹配 的 字符 ， 如 图 11-8 所 示 。 输 出 11-2 给 出 了 示例 程序 SseTextStringReplaceChar 


[323] 的 执行 结果 


输出 11-2 示例 程序 SseTextStringReplaceChar 


Results for SseTextStringReplaceChars() 
OldChar = '*' NewChar = '#' 


S1 before replace: "*Red*Green*Blue*" 
si after replace: "#Red#Green#Blue#" 


s2 before replace: "*Red*Green*Blue*" 
s2 after replace: "#Red#Green#Blue#" 


S1 before replace: "Cyan*Magenta Yellow*Black Tan" 
si after replace: "Cyan#Magenta Yellow#Black Tan" 


S2 before replace: "Cyan*Magenta Yellow*Black Tan" 
s2 after replace: "Cyan#Magenta Yellow#Black Tan" 


S1 before replace: "White*Pink Brown Purple*Gray Orange*" 
s1 after replace: "White#Pink Brown Purple#Gray Orange#" 


s2 before replace: "White*Pink Brown Purple*Gray Orange*" 
s2 after replace: "White#Pink Brown Purple#Gray Orange#" 
S1 before replace: "Beige Silver Indigo Fuchsia Maroon" 
S1 after replace: "Beige Silver Indigo Fuchsia Maroon" 
S2 before replace: "Beige Silver Indigo Fuchsia Maroon" 
s2 after replace: "Beige Silver Indigo Fuchsia Maroon" 


S1 before replace: “**##*####*####44" 
si after replace:  "IHHHHHHHHHHHHHHE" 


s2 before replace: "om 
s2 after replace:  "IHHHHHHHHHHHHHHE" 


s1 before replace: NURIA aokk p okekelolek 4 AK 4 RK 
s1 after replace:  "#HHHHE-HHHHHEHHHHLHHHHE HHH" 


s2 before replace: NUR EA A I A A kkk " 
s2 after replace:  "IHHHHHAHHHHEHBHHHEHHHBHHEHHHBBHE 
s1 before replace: "" 
si after replace: 


s2 before replace: 
s2 after replace: 


x86-SSE 4342-47 # 231 


11.3 BS 


本 章 介绍 了 如 何 使 用 x86-SSE 的 字符 串 处 理 指令 来 进行 基本 的 操作 ， 同 时 还 介绍 了 使 
用 SIMD 技术 处 理 字符 串 时 需要 注意 的 事项 。 本 章 开始 我 们 就 提 到 了 x86-SSE 字符 串 指令 
是 非常 强大 和 灵活 的 ， 但 使 用 起 来 会 感觉 有 一 些 迷 惑 。 希望 这 些 迷 惑 已 经 消除 了 ， 至 少 是 在 
某 种 程度 上 减少 了 。 

此 前 的 四 章 我 们 考察 了 大 量 的 x86-SSE 示例 代码 ， 这 么 多 的 示例 程序 (也许 太 多 了 ) 以 
及 大 量 的 讲解 展现 了 x86-SSE 的 重要 性 和 优势 。 本 书 的 标题 中 包含 了 “现代 ”一 词 ， 之 所 以 
选 这 个 词 就 是 为 了 鼓励 大 家 在 任何 可 能 的 情况 下 都 使 用 当前 处 理 器 的 扩展 技术 ， 诸 如 x86- 
SSE， 而 不 是 拘泥 于 老 的 指令 和 架构 。 在 接 下 来 的 章节 中 ， 我 们 将 通过 学 习 最 新 的 x86 平台 
SIMD 扩展 技术 来 使 大 家 的 现代 汇编 语言 编程 知识 面 得 到 进一步 的 拓宽 ， 这 种 新 的 SIMD 扩 
展 叫 作 高 级 向 量 扩展 技术 。 
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Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


AVX 一 一 高 级 问 量 扩展 


通过 前 面 七 章 ， 我 们 学 习 了 MMX 和 x86-SSE 的 SIMD ( 单 指令 多 数据 流 ) 处 理 能 力 。 
MMX 技术 为 x86 平 台 引 入 了 初等 的 整数 SIMD 算术 以 及 相关 运算 的 能 力 。x86-SSE 技术 则 增 
强 了 这 些 能 力 ， 包 括 增 大 操作 数 宽度 、 增 加 额外 的 寄存 器 以 及 对 标量 和 组 合 操作 数 做 高 级 浮 点 
算术 运算 等 。 本 章 我 们 将 介绍 x86 平台 上 最 近 的 增强 SIMD 一 一 高 级 向 量 扩 展 (x86-AVX)。 

与 先前 的 扩展 类 似 ，x86-AVX 增加 了 新 的 寄存 器 、 新 的 数据 类 型 和 新 的 指令 。 与 此 同 
时 ，x86-AVX 还 引入 了 现代 三 目 运算 符 汇编 语言 指令 以 简化 汇编 语言 编程 ， 并 提高 性 能 。 在 
介绍 x86-AVX 过 程 中 ， 我 们 也 将 介绍 x86-AVX 的 几 个 独特 扩展 功能 ， 包 括 单 精度 浮 点 数 变 
换 、Fused-Multiply-Add (FMA, WARM) 运算 以 及 新 的 通用 寄存 器 指令 。 

学 习 本 章 的 内 容 需要 读者 能 基本 理解 x86-SSE 及 其 指令 集 。 与 第 7 章 中 介绍 x86-SSE 
类 似 ， 本 章 主 要 讨论 如 何在 x86-32 执行 环境 中 使 用 x86-AVX 指令 。 在 后 面 的 第 19 章 和 第 
20 章 中 ,我们 将 学 习 如 何在 x86-64 平台 上 使 用 x86-AVX 的 计算 资源 。 


12.1 x86-AVX 概述 


第 一 代 的 x86-AVX 扩展 是 在 2011 年 由 Sandy Bridge 微 架构 引入 的 。AVX 将 x86-SSE 
的 组 合 型 单 精度 浮 点 和 双 精 度 浮 点 能 力 从 128 位 扩展 到 256 位 。 同 时 它 利用 无 损 源 操作 数 
(non-destructive source operand) 支持 了 新 的 三 目 运 算 符 指令 语法 ， 大 大 地 简化 了 汇编 语言 
程 。 编 程 人 员 可 以 利用 这 一 新 的 指令 语法 来 操作 128 位 组 合 整数 、128 位 组 合 浮 点 数 和 256 
位 组 合 浮 点 数 。 此 外 这 一 新 的 指令 语法 也 可 以 用 来 做 标量 单 精度 或 双 精 度 浮 点 算术 运算 。 在 
2012 年 ，Intel f f Sandy Bridge 微 架 构 的 更 新 版 一 一 [vy Bridge， 引 入 了 新 的 指令 来 变换 
半 精 度 浮 点 数 。 关 于 半 精 度 浮 点 数 ， 我 们 将 在 本 章 的 后 面 介绍 。 

2013 4E, Intel 又 发 布 了 新 的 微 架 构 一 一 Haswell， 并 在 Haswell 系列 处 理 器 中 引入 了 
AVX2, AVX2 将 组 合 整 型 数 宽度 从 128 位 扩展 到 了 256 位 。 同 时 它 还 包含 了 增强 的 数据 广 
播 、 混 合 和 排列 指令 ， 引 入 了 新 的 向 量 索 引 寻 址 模式 ， 加 速 了 从 不 连续 地 址 空间 载 人 (或 者 
收集 ) 数据 的 能 力 。 所 有 Haswell 系列 处 理 器 都 包含 了 几 种 AVX2 相关 的 技术 ， 包 括 FMA, 
增强 的 位 操作 以 及 不 带 标志 位 的 循环 和 位 移 指 令 。 

2013 4F. 7 H , Intel 宣布 了 AVX-512 会 在 将 来 的 处 理 器 中 把 AVX 和 AVX2 的 SIMD 能 
力 从 256 位 扩展 到 512 位 。 表 12-1 列 出 了 当前 已 经 支持 的 和 计划 支持 的 x86-AVX 技术 。 
# 12-1 用 SPFP ( Singe-Precision Floating-Point， 单 精度 浮 点 ) 和 DPFP ( Double-Precision 
Floating-Point， 双 精度 浮 点 ) 表示 单 精度 浮 点 数 和 双 精 度 浮 点 数 。 


表 12-1 x86-AVX 技术 一 览 
关键 特性 和 增强 
组 合 128 位 整数 对 支持 的 数据 类 型 做 SIMD 运算 和 三 目 运算 符 指令 语法 
组 合 128 位 SPFP 有 条 件 地 加 载 和 存储 组 合 数据 
组 合 128 位 DPFP 广播 和 排列 组 合 数据 
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(CE) 









支持 的 数据 类 型 关键 特性 和 增强 
AVX 组 合 256 位 SPFP 新 的 浮 点 比较 谓词 
组 合 256 位 DPFP 半 精 度 浮 点 数 变换 





标量 SPFP、DPFP 
组 合 256 位 整数 









对 组 合 256 位 整数 做 SIMD 运算 
数据 收集 指令 

增强 的 广播 和 置换 指令 

FMA 指令 

增强 的 位 操作 指令 

无 标志 的 循环 和 位 移 指令 

对 组 合 512 位 操作 数 做 SIMD 运算 
根据 条 件 对 组 合 型 数据 元 素 做 运算 
18 98 AE (instruction-level rounding override) 
数据 散 列 指令 (data scatter instruction) 















组 合 512 位 整数 
组 合 512 位 SPFP 
组 合 512 位 DPFP 





AVX-512 







Sandy Bridge 微 架 构 被 用 在 第 二 代 Intel Core 处 理 器 中 (i3, i5 和 i7 系列 )， 第 三 代 和 第 
PU AE Ab FH AE Wl SP HSK A T Ivy Bridge 和 Haswell 微 架 构 。 面 向 工作 站 和 服务 器 的 Xeon E3、 
E3 v2 和 E3 v3 人 处理 器 家 族 分 别 采 用 了 Sandy Bridge, Ivy Bridge 和 Haswell 微 架 构 。 更 多 关 
于 Intel 处 理 器 家 族 和 它们 所 对 应 的 微 架 构 的 信息 可 参阅 附录 C. 中 列 出 的 Intel 产品 信息 网 站 。 


12.2 x86-AVX 执行 环境 

在 下 面 的 几 节 中 我 们 将 阐述 x86-AVX 的 执行 环境 ， 包 括 它 的 寄存 器 组 和 它 所 支持 的 数 
据 类 型 。 我 们 也 将 阐述 x86-AVX 中 新 引入 的 三 目 运算 符 汇编 语言 指令 语法 。 理 解 本 章 内 容 
需要 读者 熟悉 第 7 章 到 第 11 章 的 x86-SSE 内 容 。 


12.2.1 x86-AVX 寄存 器 组 


x86-AVX 为 x86 平 台 增加 了 8 个 新 的 256 位 寄存 器 一 一 YMM0 ~ YMM7。 这 些 可 用 
来 直接 寻 址 的 寄存 器 能 够 用 来 操作 不 同 的 数据 类 型 ， 包 括 组 合 整 数 、 组 合 浮 点 数 以 及 标量 
浮 点 数 。 每 个 YMM 寄存 器 的 低 128 位 有 对 应 的 XMM 寄存 器 别名 ， 如 图 12-1 所 示 。x86- 
AVX 指令 既 可 以 用 XMM 寄存 器 作为 操作 数 也 可 以 用 YMM 寄存 器 作为 操作 数 别 名 。 如 果 
在 执行 过 程 中 x86-AVX 指令 以 XMM 寄存 器 作为 目标 操作 数 ， 处 理 器 会 在 执行 过 程 中 将 相 
应 的 YMM 寄存 器 的 高 128 位 设置 为 0。 在 那些 支持 x86-AVX 指令 的 处 理 器 上 执行 x86-SSE 
指令 时 ，YMM 寄存 器 的 高 128 位 是 永远 不 会 被 改动 的 。 关 于 在 执行 过 程 中 如 何 默认 地 处 理 
YMM 寄存 器 的 高 128 位 ， 我 们 将 在 后 续 的 章节 中 讨论 。 


12.2.2 x86-AVX 数据 类 型 


AVX 支持 在 SIMD 操作 中 使 用 256 位 和 128 位 的 组 合 型 单 精度 或 双 精 度 浮 点 操作 数 。 
如 图 12-2 所 示 ， 一 个 256 位 的 YMM 寄存 器 或 者 内 存单 元 可 以 存储 8 个 单 精 度 浮 点 数 或 者 
4 个 双 精 度 浮 点 数 。 当 使 用 128 位 宽 的 XMM 寄存 器 或 者 内 存单 元 时 ，AVX 指令 可 以 同时 处 
理 4 个 单 精度 浮 点 数 或 者 两 个 双 精 度 浮 点 数 。 与 SSE 和 SSE2 类 似 ，AVX 用 XMM 寄存 器 
的 低位 双 字 ( 译 者 注 : 1 字 =2 字 节 ，1 字 节 即 lbyte) 来 进行 标量 单 精度 浮 点 数 的 算术 运算 ， 


ee ee ae): ae 


用 低位 的 四 字 来 进行 标量 双 精 度 浮 点 数 的 算术 运算 。 


255 128 127 0 











329 图 12-1. x86-32 模式 下 的 x86-AVX 寄存 器 组 
< YMM 寄 存 器 或 256 位 的 内 存单 元 > 
<— XMM 寄 存 器 或 128 位 的 内 存单 元 一 > 
Bit Position 


:255; 224; 192; 160; 128; 96; 64; 


cen oe EET E] 
ES 
Ce ae eee eee a 


标量 单 精度 
浮 点 数 


| | | 浮 点 数 


N+28!  N+24! N+20; ss N+16! N42: N+8! N44! N! 
寄存 器 或 内 存 位 置 ( 字 节 为 单位 ) 


图 12-2 x86-AVX 数据 类 型 
































AVX 在 执行 SIMD 操作 时 ， 也 可 用 XMM 寄存 器 来 操作 不 同 的 组 合 整 型 操作 数 ， 包 括 字 
节 (byte), F (word)、 双 字 (doubleword) 和 四 字 (quadword)。AVX2 则 通过 使 用 YMM 寄存 
器 和 256 位 宽度 的 内 存单 元 扩展 了 处 理 这 些 组 合 型 整数 的 能 力 。 图 12-2 展示 了 这 些 数据 类 型 。 


12.2.3 x86-AVX 指令 语法 
也 许 在 x86-AVX 中 最 值得 大 书 特 书 的 是 其 与 时 俱 进 的 汇编 语言 指令 的 语法 。 大 多 数 


AVE ee 


x86-AVX 指令 是 三 目 运算 符 格 式 ， 由 两 个 源 操作 数 和 一 个 目标 操作 数组 成 。 通 用 的 表达 范 
式 为 : InstrMnemonic DesOp, SrcOpl, SrcOp2， 其 中 InstrMnemonic 表示 x86-AVX 指令 助 记 
符 ， eee SrcOpl 和 SrcOp2 表示 源 操作 数 。 剩 下 的 那些 x86-AVX 指令 
要 么 是 只 有 一 个 源 操作 数 ， 要 么 是 有 三 个 源 操作 数 。 几 乎 所 有 x86-AVX 指令 的 源 操作 数 都 
是 无 损 的 (non-destructive) (在 指令 执行 过 程 中 ， 这 些 操作 数 都 不 会 被 改动 )， 不 过 目标 操作 
数 和 源 操作 数 使 用 同一 寄存 器 时 除外 。 

K 12-2 通过 一 些 例子 演示 了 x86-AVX 指令 的 一 般 语 法 格式 。 需 要 说 明 的 是 ， 本 章 中 所 
有 以 字母 v 开头 的 指令 助 记 符 大 都 是 对 应 的 x86-SSE 指令 的 扩展 。 如 果 读 者 想 查 看 到 底 是 对 
哪个 SSE 指令 的 扩展 ， 只 需要 将 v 去 掉 即 可 。 


X 12-2 x86-AVX 指令 语法 示例 
id S i 作 
ymm0[63:0] = ymm1[63:0] + ymm2[63:0] 
ymm0[127:64] = ymm1[127:64] + ymm2[127:64] 
ymm0[191:128] = ymm1[191:128] + ymm2[191:128] 
ymm0[255:192] = ymm1[255:192] + ymm2[255:192] 
xmm0[31:0] = xmm1[31:0] * xmm2[31:0] 
xmm0[63:31] = xmm1[63:31] * xmm2[63:31] 
vmulps xmm0,xmml,xmm2 (组 合 单 精度 浮 点 数 乘法 ) xmm0[95:64] = xmm1[95:64] * xmm2[95:64] 
xmm0[127:96] = xmm1[127:96] * xmm2[127:96] 
ymm0[255:128] = 
xmm0[31:0] = xmm1[31:0] 
xmm0[63:31] = xmm2[31:0] 
xmm0[95:64] = xmm1[63:32] 





vaddpd ymm0,ymm1,ymm2 (组 合 双 精度 浮 点 数 加 法 ) 





vunpcklps xmm0,xmml,xmm2 (以 低 序 (low-order) 方 





式 解 组 单 精度 浮 点 数 ) xmm0[127:96] = xmm2[63:32] 
ymm0[255:128] = 
vpxor ymm0,ymml,ymm2 (逻辑 异 或 ) ymm0[255:0] = ymm1[255:0] ^ ymm2[255:0] 
vmovdqa ymm0,ymm1 (移动 对 齐 的 双 四 字 ) ymm0[255:0] = ymm1[255:0] 


ymm0[63:0] = ymm1[63:0] 
vblendpd ymm0,ymm1,ymm2,06h (混合 组 合 双 精度 浮 | ymm0[127:64] = ymm2[127:64] 
点 数 ) ymm0[191:128] = ymm2[191:128] 
ymm0[255:192] = ymm1[255:192] 


x86-AVX 之 所 以 能 支持 三 目 运 算 符 指令 语法 ， 是 因为 使 用 了 新 的 指令 编码 前 级 。 向 量 
扩展 (Vector EXtension-VEX) 前 级 使 得 x86-AVX 指令 能 够 编码 成 比 x86-SSE 指令 更 高 效 的 
格式 ， 同 时 它 也 为 将 来 对 x86-AVX 指令 增强 奠定 了 基础 。 大 部 分 新 的 通用 寄存 器 指令 也 使 
用 VEX 作为 前 级 。 


12.3 x86-AVX 功能 扩展 


在 引入 x86-AVX fll AVX2 的 同时 ， 也 借 机 会 对 x86 平台 做 了 一 些 扩展 ， 包括 半 精度 浮 
点 数 变换 、FMA 计算 以 及 增强 的 通用 寄存 器 指令 。 本 节 主 要 描述 这 些 扩 展 功能 以 及 开发 者 
在 使 用 这 些 扩展 功能 时 的 注意 事项 。 
基于 Ivy Bridge 和 Haswell 微 架构 的 处 理 器 包含 了 可 以 处 理 半 精度 浮 点 数 变换 的 指 
与 标准 的 单 精度 相 比 ， 半 精度 浮 点 数 的 精度 变 低 了 ， 它 包含 三 个 部 分 : 指数 部 分 (5 位 )、 * 
效 数 据 部 分 C10 位 ) 以 及 符号 位 。 每 个 半 精 度 浮 点 数 都 是 16 位 的 ， 其 中 第 一 位 是 符号 位 。 


=> 


那些 向 后 兼容 的 处 理 器 可 以 将 半 精 度 浮 点 数 转 换 为 单 精度 浮 点 数 ， 反 之 亦 然 。 人 然而， 我们 无 
法 对 半 精 度 浮 点 数 进行 通用 的 算术 运算 ( 壁 如 加 、 减 、 乘 、 除 )。 半 精度 浮 点 数 主要 是 用 来 
降低 存储 空间 的 ， 既 包括 内 存 空 间 也 包括 数据 存储 设备 的 存储 空间 。 使 用 半 精 度 浮 点 数 所 带 
来 的 主要 缺点 是 降低 了 数据 精度 以 及 数据 的 表示 范围 。 

基于 Haswell 的 处 理 器 还 包含 了 可 以 执行 FMA 运算 的 指令 。FMA 指令 将 乘法 指令 和 加 
法 /减法 指令 合并 到 一 条 指令 中 。 特 别 地 ， 一 个 融合 乘 加 (或 者 融合 乘 减 ) 运算 在 一 次 操作 
中 完成 乘法 运算 和 加 法 (或 减法 ) 运算 ， 只 做 一 次 舍 人 操作 。 举 个 例子 ， 假 如 我 们 需要 计算 
a=(b*c)+d 这 个 表达 式 的 值 。 如 果 利 用 标准 的 浮 点 数 算 术 模 式 ， 处 理 器 会 先 做 乘法 运算 和 
舍 人 操作 ， 然 后 再 做 加 法 运算 和 另 一 次 舍 人 操作 ; 但 是 如 果 采 用 FMA 来 计算 这 个 表达 式 的 
值 ， 处 理 器 不 会 对 (b * c) 的 值 做 伟人 ， 只 有 当 处 理 器 得 到 最 终 的 表达 式 (b * c) + d 结果 时 ， 
才 会 做 唯一 的 一 次 舍 和 操作。 可 以 用 FMA 指令 来 提高 乘法 累加 运算 (譬如 点 积 运算 和 和 矩阵 
乘法 运算 ) 的 性 能 和 精度 。 许 多 信和 号 处 理 算法 也 可 以 采用 FMA 运算 。FMA 指令 集 同 时 支持 
标量 型 和 组 合 型 单 精度 浮 点 数 和 双 精 度 浮 点 数 。 

x86-AVX 的 最 后 一 个 扩展 功能 是 增加 了 新 的 通用 寄存 器 指令 。 基 于 Haswell 的 处 理 器 
使 用 了 这 些 新 增加 的 指令 。 这 些 指令 增强 了 位 操作 ， 并 且 支 持 无 标记 的 寄存 器 循环 和 位 移 操 
作 以 及 无 标记 的 无 符号 整数 乘法 运算 。 其 中 无 标记 的 循环 和 位 移 操作 以 及 乘法 运算 不 会 改变 
EFLAGS 寄存 器 中 的 任何 标记 位 的 状态 。 这 样 可 以 提高 很 多 整数 运算 的 效率 和 算法 的 性 能 。 
大 多 数 新 的 通用 寄存 器 指令 采用 新 型 的 三 目 运算 符 汇编 语言 语法 。 

前 面 所 讨论 的 扩展 功能 可 以 认为 是 因 处 理 器 而 异 的 。 从 编程 的 角度 看 ， 这 意味 着 开发 者 
不 能 假设 处 理 器 支持 AVX/AVX2 指令 抑或 不 支持 。 比 如 说 ， 将 来 用 在 手持 设备 上 的 处 理 器 
可 能 支持 AVX2 但 却 不 支持 FMA 以 满足 特殊 的 设计 需求 。 因 此 开发 者 每 次 都 应 该 显 式 地 通 
过 CPUID 指令 来 检测 当前 处 理 器 是 否 支 持 某 些 特定 的 扩展 功能 。 在 第 16 章 中 ,我 们 将 通过 
示例 代码 来 演示 如 何 检测 。 


12.4 x86-AVX 指令 集 概述 


可 以 把 x86-AVX 指令 集 大 体 分 为 三 类 。 第 一 类 是 三 目 运算 符 的 x86-SSE 指令 升级 版 
本 。 第 二 类 是 那些 AVX/AVX2 新 引入 的 指令 。 最 后 一 类 则 是 那些 功能 扩展 指令 ， 包 括 半 精 
度 浮 点 数 变 换 、FMA 指令 和 新 的 通用 寄存 器 指令 。 

在 开始 介绍 之 前 ， 需 要 说 明 一 下 x86-AVX -指令 集 的 一 些 语法 和 执行 指令 时 的 一 些 共 同事 
项 。 正 如 本 章 前 面 所 提 到 的 那样 ， 所 有 x86-AVX 指令 的 汇编 语法 都 包含 一 个 指令 助 记 符 、 一 
个 目标 操作 数 以 及 最 多 三 个 源 操作 数 。 如 果 一 个 指令 执行 数据 传输 操作 ， 那 么 目标 操作 数 需 
指定 内 存 地 址 ， 目 标 操作 数 只 能 为 XMM 或 者 YMM 寄存 器 。 此 外 ， 源 操作 数 中 只 能 有 一 个 
可 以 指定 为 内 存 地址 ， 其 他 的 只 能 是 XMM 寄存 器 、YMM 寄存 器 或 者 立即 数 。 

x86-AVX 放宽 了 指令 操作 数 内 存 对 齐 的 要 求 ; 除了 数据 传输 指令 需要 显 式 地 要 求 16 字 
节 或 者 32 字 节 对 齐 外 ， 其 他 的 x86-AVX 指令 的 操作 数 不 需 要 严格 对 齐 。 尽 管 如 此 ， 我 们 
仍然 强烈 建议 指令 操作 数 以 16 字 节 或 32 字 节 对 齐 以 达到 最 好 的 性 能 。 此 外 ， 在 支持 x86- 
AVX 指令 的 处 理 器 上 运行 x86-SSE 指令 时 仍然 需要 内 存 对 齐 。 


12.4.1 升级 版 的 x86-SSE 指令 
大 部 分 操作 128 位 操作 数 (包括 组 合 单 精度 浮 点 数 、 组 合 双 精度 浮 点 数 和 组 合 整数 ) 的 
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x86-SSE 指令 都 有 与 之 对 应 的 x86-AVX 指令 。 例 如 ， 如 果 我 们 需要 计算 XMMO 和 XMMI 
的 乘积 ， 并 将 结果 保存 到 XMM0， 其 中 XMMO All XMM1 为 组 合 型 单 精度 浮 点 数 ， 则 可 以 
利用 x86-SSE 指令 “mulps xmm0,xmm1l” 来 实现 。 如 果 用 与 之 相对 应 的 x86-AV X 指令 来 实 
现 ， 则 是 “ vmulps xmm0,xmm0,xmml1”。 另 外 一 个 例子 是 x86-SSE 中 组 合 型 整数 的 加 法 指 
令 “paddb xmm0,xmm1l”， 与 之 相对 应 的 x86-AVX 指令 为 “vpaddb xmm0,xmm0,xmml”。 
需要 指出 的 是 ， 上 面 两 个 例子 都 是 有 损 操 作 ， 因 为 它们 改变 了 XMMO 的 值 。 而 vmulps 
xmm0,xmm1,xmm2 和 vpaddb xmm0,xmm1,xmm2 则 是 无 损 的 ， 因 为 它们 不 会 改变 XMM] 和 
XMM2 的 值 。 

几乎 所 有 128 位 的 x86-SSE 指令 都 有 相应 的 x86-AVX 指令 ， 用 来 操作 256 位 的 操作 
数 。 壁 如 vsubpd ymm7,ymm0,ymm!1 指令 在 进行 组 合 型 浮 ， s cis 云 算 时 ， 用 了 四 对 双 精 
度 的 值 ; vdivps ymm7,ymm0,ymml 在 进行 组 合 单 精度 浮 点 数 除 法 运算 时 用 了 八 对 值 ; 而 
vpsubb ymm7,ymm0,ymm1 则 用 了 32 对 整 型 字 节 的 值 。 

在 处 理 器 内 ， 每 个 256 位 的 x86-AVX 寄存 器 都 可 以 分 为 高 128 位 和 低 128 位 两 部 分 。 
大 多 数 x86-AVX 指令 在 执行 时 ， 目 标 操作 数 和 源 操作 数 都 使 用 相同 的 部 分 分 别 做 运算 ， 其 
中 目标 操作 数 的 低 128 位 与 源 操作 数 的 低 128 位 做 运算 ， 高 128 位 则 与 源 操作 数 的 高 128 位 
做 运算 。 不 过 在 利用 x86-AVX 指令 做 算术 运算 时 ， 这 种 运算 方式 并 不 明显 。 

然而 当 利 用 x86-AVX 指令 重新 排列 组 合 型 数据 时 (例如 vshufps 和 vpunpcklwd)， 这 种 分 部 
运算 的 方式 就 变 得 非常 明显 ， 如 图 12-3 所 示 。 例 子 中 ， 将 会 对 操作 数 的 高 位 双 四 字 (128 ~ 255 
位 ) 以 及 低位 双 四 字 (0 ~ 128 位 ) 分 别 独立 地 执行 重 排 (shuffle) 操作 或 者 解 组 合 操作 。 


vshufps ymm0,ymm1.ymm2,01110010b 
0 h 3 2 1 0 
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vpunpcklwd yai l,ymm2 

sr se ss [5a [55 [sa [i [ [7 ne [s [a [i [2 n [o] mm 

[o ToToToTo eT To] o IoTo To To To Io To] nm 
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图 12-3 x86-AVX 指令 独立 执行 示例 


























x86-AVX 指令 集 也 以 三 目 运算 符 的 形式 支持 x86-SSE 的 标量 浮 点 指令 。 例 如 vaddss 
xmm0,xmml,xmm2 指令 将 存储 在 xmml 和 xmm2 中 的 标量 单 精度 浮 点 数 相 加 ， 并 将 结果 保 
存在 xmm0 中 ; vmulsd xmm0,xmm1,xmm2 指令 将 存储 在 xmml 和 xmm2 中 的 标量 双 精 度 浮 
点 数 相 乘 ， 并 将 结果 保存 在 xmm0 中 。 

在 Intel 和 AMD 的 用 户 手 册 中 ， 罗 列 了 所 有 x86-AVX 中 升级 版 的 x86-SSE 指令 ， 读 者 





238 #12 # 








可 以 从 附录 C 提供 的 网 站 链接 中 下 载 。 

x86-SSE 和 x86-AVX 指令 之 间 的 高 度 对 称 性 ， 以 及 XMM 和 YMM 寄存 器 间 的 别名 关 
系 ， 导 致 了 开发 者 需要 牢记 一 些 注意 事项 。 首 先是 以 XMM 寄存 器 作为 目标 操作 数 时 ， 处 理 
器 对 相应 的 YMM 寄存 器 高 128 位 的 处 理 。 当 x86-SSE 指令 以 XMM 寄存 器 作为 目标 操作 
数 时 ， 永 远 不 应 访问 相应 的 YMM 寄存 器 高 128 位 。 但 是 与 该 SSE 指令 相对 应 的 x86-AVX 
指令 则 会 将 YMM 寄存 器 的 高 128 位 置 为 0。 例如， 请 思考 下 面 (v)cvtps2pd (将 组 合 型 单 精 
度 浮 点 数 转换 为 组 合 型 双 精 度 浮 点 数 ) 的 实例 : 

cvtps2pd xmmo,xmmi 

vcvtps2pd xmm0, xmm1 

vcvtps2pd ymmo,ymmi 

cvtps2pd 指令 把 存储 在 XMM1 低位 (low-order) 四 字 的 两 个 组 合 型 单 精 度 浮 点 数 转换 
为 双 精 度 浮 点 数 ， 并 将 结果 保存 在 XMMO0 中 ， 而 YMMO 的 高 128 位 则 没有 任何 改变 。 第 
一 个 vevtps2pd 实例 同样 也 是 将 组 合 单 精度 浮 点 数 转 换 为 双 精 度 浮 点 数 ， 但 它 同 时 将 YMMO 
的 高 128 位 设置 为 0。 第 二 个 vevtps2pd 实例 将 存储 在 YMMI 低 128 位 中 的 四 个 组 合 型 单 精 
度 浮 点 数 转换 为 双 精 度 浮 点 数 ， 并 将 结果 保存 在 YMM0 中 。 

所 有 x86-AVX 标量 浮 点 指令 都 将 YMM 寄存 器 的 高 128 位 设置 为 0。 这些 指令 同时 也 
将 第 一 个 源 操作 数 的 那些 不 用 的 位 拷贝 到 目标 操作 数 中 ， 如 表 12-3 中 的 vaddss 和 vaddsd 
(标量 单 精度 / 双 精 度 浮 点 数 相 加 ) 指令 所 示 。 表 12-3 同时 展示 了 vsqrtss 和 vsqrtsd (计算 单 
精度 / 双 精 度 浮 点 数 的 标量 平方 根 ) 指令 的 执行 方式 。 需 要 说 明 的 是 这 些 指 令 都 需要 两 个 源 
操作 数 ， 即 使 是 只 用 了 第 二 个 源 操 作 数 的 一 元 操作 。 


X 12-3 x86-AVX 标量 浮 点 指令 示例 





i $ i fF 
xmm0[31:0] = xmml[31:0] + xmm2[31:0] 
vaddss xmm0,xmml,xmm2 (标量 单 精 度 浮 点 数 加 法 ) xmm0[127:32] = xmm1[127:32] 


ymm0[255:128] = 0 
xmm0[63:0] = xmm1 [63:0] + xmm2[63:0] 
vaddsd xmm0,xmm1,xmm2 (标量 双 精 度 浮 点 数 加 法 ) xmm0[127:64] = xmm1[127:64] 
ymm0[255:128] = 0 
xmm0[31:0] = sqrt(xmm2[31:0]) 
vsqrtss xmm0,xmm1,xmm2 ( 单 精度 浮 点 数 平方 根 计 算 ) xmm0[127:32] = xmm1[127:32] 
ymm0[255:128] = 0 
xmm0[63:0] = sqrt(xmm2[63:0]) 
vsqrtsd xmm0,xmm1,xmm2 ( 双 精 度 浮 点 数 平方 根 计算 ) xmm0[127:64] = xmm1[127:64] 
ymm0[255:128] =0 


最 后 一 个 注意 事项 是 x86-AVX 和 x86-SSE 的 混合 编程 。 可 以 使 用 x86-AVX 与 x86-SSE 
进行 混合 编程 ， 但 是 应 尽量 避免 处 理 器 内 部 状态 频繁 切换 而 影响 性 能 。 在 x86-AVX 切换 到 
x86-SSE 的 过 程 中 ， 如 果 要 求 保留 每 个 YMM 寄存 器 的 高 128 位 ， 就 可 能 影响 性 能 。 不 过 我 
们 可 以 使 用 vzeroupper ( YMM 寄存 器 高 位 置 0 ) 指令 将 所 有 YMM 寄存 器 的 高 128 位 置 0， 
从 而 完全 避免 这 个 问题 。 当 需要 从 256 位 的 x86-AVX 代码 (例如 ， 任意 的 x86-AVX 指令 使 
用 了 YMM 寄存 器 ) 切换 到 x86-SSE 代码 时 ， 应 该 首先 使 用 vzeroupper 指令 。 
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vzeroupper 指令 常用 在 使 用 了 256 位 x86-AVX 指令 的 公共 函数 中 。 这 些 类 型 的 函数 应 
该 在 ret 指令 之 前 调用 vzeroupper 指令 ， 从 而 降低 x86-SSE 代码 调用 此 类 函数 时 处 理 右 进行 
状态 切换 所 带 来 的 性 能 损失 。 在 调用 那些 有 可 能 包含 x86-SSE 代码 的 库 函 数 之 前 ， 也 应 该 使 
用 vzeroupper 指令 。 在 第 14 章 到 第 16 章 中 包含 了 合理 使 用 vzeroupper 指令 的 实例 。 此 外 
函数 也 可 以 使 用 vzeroall 指令 将 所 有 的 YMM 寄存 器 初始 化 为 0， 以 降低 x86-AVX /x86-SSE 
间 状 态 切 换 所 带 来 的 不 利 影响 。 


12.4.2 ”新 指令 


本 小 节 我 们 简要 地 浏览 新 的 x86-AVX 指令 。 这 些 指 令 被 分 成 了 以 下 几 类 : 

e 广播 指令 (Broadcast) 

e 混合 指令 (Blend) 

e 排列 指令 (Permute) 

e 提取 和 插入 指令 (Extract and Insert) 

e 掩 人 码 移动 指令 (Masked Move) 

e 变 长 移 位 指令 (Variable Bit Shift) 

e 数据 收集 指令 (Gather) 

下 面 的 指令 集 列表 概要 地 岁 列 了 各 类 指令 。 需 要 说 明 的 是 ， 如 果 表 中 的 版 本 列 把 AVX 
和 AVX2 都 列 出 来 ， 则 表示 该 指令 在 AVX2 中 新 加 了 其 他 形式 。 

1. 广播 指令 

那些 可 以 将 单一 数据 拷贝 (或 广播 ) 至 组 合 数据 的 多 个 子 元 素 的 指令 ， 被 归 类 为 广 
播 指令 。 广 播 指 令 对 所 有 的 组 合 数据 均 适 用 ， 包 括 单 精 度 浮 点 数 、 双 精度 浮 点 数 和 整数 。 
表 12.4 概述 了 广播 指令 。 


表 12-4 x86-AVX 广播 指令 





将 单 精度 浮 点 数据 贝 至 目标 操作 数 的 所 有 子 元 素 中 


vbroadcastss 








vbroadcastsd 将 双 精 度 浮 点 数据 贝 至 目标 操作 数 的 所 有 子 元 素 中 


vbroadcastf128 从 内 存 中 拷贝 组 合 128 位 浮 点 数 至 目标 操作 数 的 低位 双 四 字 和 高 位 双 四 字 中 
vbroadcasti128 从 内 存 中 拷贝 组 合 128 位 整数 至 目标 操作 数 的 低位 双 四 字 和 高 位 双 四 字 中 


vpbroadcastb 










vpbroadeastw | — 拷贝 -个 8 位 /16 位 /32 位 /64 位 整数 至 目标 操作 数 的 所 有 子 元 素 中 AVX2 
vpbroadcastd 


vpbroadcastq 





2. 混合 指令 
那些 可 以 将 两 种 组 合 数据 有 条 件 地 合并 在 一 起 的 指令 ， 被 归 类 为 混合 指令 。 这 些 指令 如 
K 12-5 所 示 。 


表 12-5 x86-AVX 混合 指令 





vpblendd =| 根据 立即 数 所 指定 的 控制 标记 ， 有 条 件 地 将 前 两 个 源 操作 数 的 双 字 拷贝 至 目标 操作 数 中 
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3. 排列 指令 
那些 可 以 重 排 或 复制 组 合 型 数据 子 元 素 的 指令 ， 被 归 类 为 排列 指令 。 排 列 指令 支持 多 种 
组 合 型 数据 ， 包 括 双 字 、 单 精度 浮 点 数 和 双 精 度 浮 点 数 。 表 12-6 概述 了 这 些 指令 。 


表 12-6 x86-AVX 排列 指令 


根据 第 一 个 源 操作 数 所 指定 的 索引 ， 以 双 字 为 单位 来 排列 第 二 个 源 操作 数 。 此 指令 可 


以 对 第 二 个 源 操 作 数 中 的 双 字 进行 重 排 或 者 复制 
根据 立即 数 所 指定 的 索引 ， 以 双 精 度 浮 点 数 为 单位 来 排列 第 一 个 源 操 作 数 。 此 指令 可 
以 对 源 操作 数 中 的 双 精 度 浮 点 数 进 行 重 排 或 者 复制 

根据 第 一 个 源 操 作 数 所 指定 的 索引 ， 以 单 精度 浮 点 数 为 单位 来 排列 第 二 个 源 操作 数 。 
此 指令 可 以 对 第 二 个 源 操作 数 中 的 单 精度 浮 点 数 进行 重 排 或 者 复制 

— 根据 立即 数 所 指定 的 索引 ， 以 四 字 为 单位 来 排列 第 一 个 源 操 作 数 。 此 指令 可 以 对 源 操 

作 数 中 的 四 字 进 行 重 排 或 者 复制 

根据 立即 数 所 指定 的 索引 ， 以 组 合 型 128 位 整数 为 单位 来 排列 前 两 个 源 操作 数 。 此 指 
令 可 以 对 前 两 个 源 操作 数 中 的 组 合 型 128 位 整数 进行 重 排 、 复 制 或 者 交叉 (interleave) 
根据 第 二 个 源 操作 数 所 指定 的 控制 值 ， 排 列 第 一 个 源 操 作 数 中 的 双 精 度 浮 点 数 。 每 
128 位 独立 调换 
根据 第 二 个 源 操作 数 所 指定 的 控制 值 ， 排 列 第 一 个 源 操作 数 中 的 单 精 度 浮 点 数 。 每 
128 位 独立 调换 
根据 立即 数据 码 所 指定 的 索引 ， 排 列 前 两 个 源 操 作 数 中 的 组 合 型 128 位 浮 点 数 。 此 指令 
可 以 对 前 两 个 源 操作 数 中 的 组 合 128 位 浮 点 数 进行 重 排 、 复 制 或 者 交叉 (interleave) 





vpermpd 










vpermps 














vperm2i128 

















vpermilpd 










vpermilps 









vperm2f128 






4. 提取 和 插入 指令 
在 YMM 寄存 器 和 XMM 寄存 器 或 者 内 存 之 间 ， 拷 贝 组 合 型 128 位 整数 的 指令 ， 归 类 为 
提取 和 插入 指令 。 表 12-7 概要 地 说 明了 这 些 指令 。 


表 12-7 x86-AVX 提取 和 插入 指令 






根据 立即 数 指定 的 值 ， 提 取 源 操作 数 的 高 位 或 者 低位 组 合 128 位 整数 ， 并 将 其 拷贝 至 
目标 操作 数 中 
将 第 二 个 源 操作 数 中 的 组 合 型 128 位 整数 插入 目标 操作 数 中 。 插 入 的 位 置 ( 低 128 位 
或 高 128 位 ) 由 一 个 立即 数 指定 。 目 标 操作 数 中 保留 的 部 分 (高 128 位 或 低 128 f) 用 | AVX2 
第 一 个 操作 数 与 之 对 应 的 部 分 (高 128 位 或 低 128 位 ) 填充 












vextracti128 







vinsertil28 


5. 掩 码 移动 指令 

掩 码 移 动 指令 是 指 有 条 件 地 移动 组 合 数据 的 指令 。 控 制 掩 码 决定 了 是 否 将 一 个 指定 的 元 
素 从 源 操 作 数 拷贝 至 目标 操作 数 中 。 如 果 源 操作 数 中 的 元 素 没 有 被 拷贝 ， 那 么 目标 操作 数 中 
所 对 应 的 元 素 被 设置 为 0。 表 12-8 列 出 了 掩 码 移动 指令 。 


表 12-8 x86-AVX 撞 码 移动 指令 







根据 第 一 个 源 操作 数 所 指定 的 控制 掩 码 ， 有 条 件 地 将 第 二 个 源 操作 数 中 的 单 精 度 浮 点 
数 元 素 拷贝 到 目标 操作 数 对 应 的 位 置 
根据 第 一 个 源 操作 数 所 指定 的 控制 掩 码 ， 有 条 件 地 将 第 二 个 源 操 作 数 中 的 双 精 度 浮 点 
数 元 素 拷贝 到 目标 操作 数 对 应 的 位 置 





vmaskmovps 










vmaskmovpd 
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贝 到 目标 操作 数 对 应 的 位 置 

根据 第 一 个 源 操作 数 所 指定 的 控制 掩 码 ， 有 条 件 地 将 第 二 个 源 操作 数 中 的 四 字 元 素 拷 
贝 到 目标 操作 数 对 应 的 位 置 





vpmaskmovd 















vpmaskmovq AVX2 






6. 变 长 移 位 指令 
对 组 合 双 字 或 组 合 四 字数 据 中 的 元 素 进行 不 同位 数 的 算术 移 位 或 逻辑 移 位 的 指令 ， 归 类 
为 变 长 移 位 指令 。 表 12-9 概述 了 这 些 指 令 。 


表 12-9 x86-AVX 变 长 移 位 指令 









根据 第 二 个 源 操作 数 所 指定 的 对 应 移 位 位 数 ， 对 第 一 个 源 操作 数 中 的 每 个 双 字 / 四 字 
元 素 进 行 左 移 并 以 0 填充 
根据 第 二 个 源 操 作 数 所 指定 的 对 应 移 位 位 数 ， 对 第 一 个 源 操作 数 中 的 每 个 双 字 元 素 进 
行 右 移 并 以 元 素 的 符号 位 填充 
根据 第 二 个 源 操作 数 所 指定 的 对 应 移 位 位 数 ， 对 第 一 个 源 操作 数 中 的 每 个 双 字 / 四 字 
元 素 进行 右 移 并 以 0 填充 







vpsllvd 





vpsllvq 











vpsravd AVX2 










vpsrlvd 





vpsrlvq 


7. 数据 收集 指令 

数据 收集 指令 包含 那些 将 数据 元 素 从 内 存 拷 贝 至 XMM 寄存 器 或 者 YMM 寄存 器 的 指 
令 。 这 些 指 令 采 用 特殊 的 内 存 寻 址 方式 ， 叫 作 VSIB (vector scale-index-base) 寻 址 。VSIB 
内 存 寻 址 方式 包含 下 面 几 个 元 素 : 

@ Base 一 个 通用 寄存 器 ， 保 存 数组 在 内 存 中 的 首 地 址 。 

e Scale 一 一 数组 元 素 大 小 的 比例 因子 (1、2、4 或 8 )。 
一 个 向 量 寄存 器 (XMM 或 YMM )， 包 含有 符号 双 字 或 者 四 字数 组 的 下 标 。 

e Displacement 一 一 可 选 元 素 ， 用 来 指定 距离 数据 起 始 位 置 的 偏 移 。 

根据 指令 需要 ， 向 量 寄存 器 必须 包含 2、4 或 者 8 个 有 符号 整数 下 标 。 这 些 下 标 用 来 从 
数组 中 选取 元 素 。 图 12-4 展示 了 指令 vgatherdps xmmO,[esixmm1*4],xmm2 的 执行 过 程 。 
在 这 个 例子 中 ， 寄 存 器 ESI 指 向 了 单 精度 浮 点 数 数组 的 起 始 位 置 。XMM1 中 保存 了 四 个 有 
符号 双 字 的 数组 下 标 ，XMM2 中 保存 了 条 件 拷贝 控制 掩 码 。 


ESI 








e Index 





内 存 中 的 数组 








0 1 2 3 4 5 6 7 
执行 vgatherdps xmm0 , [esi-xmm1*4] , xmm2 之 前 的 XMM 寄 存 器 


—- 200.0 | 335.0 | —144.0 16.0 xmm0 
$ | 7 3 | 2 | xmml 
0x80000000 | 0x80000000 | 0x00000000 | 0x80000000 ] xmm2 


图 12-4 vgatherps 指令 图 示 





























242 £12* 





执行 vgatherdps xmm0 , [esi-xmm1*4] , xmm2 之 后 的 XMM 寄 存 器 











39.0 -75.0 -144.0 47.0 xmm0 

5 7 3 2 xmml 

oso [ oss wom 
图 12-4 ( 续 ) | 


数据 收集 指令 的 目标 操作 数 和 第 二 个 源 操作 数 (拷贝 控制 掩 码 ) 必须 是 XMM 或 者 
YMM 寄存 器 。 第 一 个 源 操作 数 指定 了 VSIB 的 元 素 (数组 的 基 址 寄存 器 、 放 大 因子 、 数 组 
下 标 和 可 选 的 偏 移 )。 需 要 注意 的 是 ， 数 据 收 集 指 令 不 会 检查 数组 的 下 标 是 否 有 效 ， 引 用 无 
效 的 数据 下 标 将 会 导致 错误 的 结果 。 表 12-10 概述 了 数据 收集 指令 。 表 中 ， 每 个 数据 收集 指 
341] 令 助 记 符 都 用 vgatherd 或 vgatherq 作为 前 组 来 分 别 指定 数据 的 下 标 是 双 字 还 是 四 字 。 


表 12-10 x86-AVX 数据 收集 指令 












vgatherdpd 
vgatherqpd 






利用 VSIB 寻 址 有 条 件 地 拷贝 内 存 数 组 中 的 两 个 或 者 四 个 双 精 度 浮 点 数 AVX2 















vgatherdps 
vgatherqps 
vgatherdd 
vgatherqd 


利用 VSIB 寻 址 ， 有 条 件 地 拷贝 内 存 数组 中 的 四 个 或 者 八 个 单 精度 浮 点 数 AVX2 


利用 VSIB 寻 址 ， 有 条 件 地 拷贝 内 存 数组 中 的 四 个 或 者 八 个 双 字 


利用 VSIB 寻 址 ， 有 条 件 地 拷贝 内 存 数组 中 的 两 个 或 者 四 个 四 字 













AVX2 





vgatherdq 
vgatherqq 


AVX2 







12.4.3 ”功能 扩展 指令 


本 节 描 述 x86-AVX 的 功能 扩展 指令 ， 包 括 半 精度 浮 点 数 指令 、FMA 指令 以 及 增强 的 
通用 寄存 器 指令 。 处 理 器 通过 cpuid 指令 来 表示 是 和 否 支持 这 些 指 令 。 半 精度 浮 点 数 指令 和 
FMA 指令 需要 处 理 器 支持 AVX 或 AVX2， 并 且 要 求 操作 系统 在 进行 线程 或 者 进程 上 下 文 切 
换 的 时 候 保 存 YMM 寄存 器 状态 。 
1. 半 精 度 浮 点 数 指令 
半 精 度 浮 点 数 指令 包括 那些 将 组 合 半 精 度 浮 点 数 转 换 为 单 精度 浮 点 数 (反之 亦 然 ) 的 指令 。 
处 理 器 通过 cpuid F16C 功能 标识 来 表示 是 否 支持 这 些 指 令 。 表 12-11 概述 了 单 精度 浮 点 数 指令 


o 


表 12-11 x86-AVX 半 精 度 浮 点 数 指令 












将 源 操作 数 中 的 四 个 或 八 个 半 精 度 浮 点 数 转 换 为 单 精度 浮 点 数 ， 并 将 结果 保 
存 到 目标 操作 数 中 。 具 体 转 换 的 数目 由 目标 操作 数 的 大 小 决定 ， 此 操作 数 必 
须 为 XMM 或 者 YMM 寄存 器 
将 源 操作 数 中 的 四 个 或 八 个 单 精度 浮 点 数 转换 为 半 精 度 浮 点 数 ， 并 将 结果 保 
存 到 目标 操作 数 中 。 具 体 转换 的 数目 依赖 于 第 一 个 源 操作 数 的 大 小 ， 此 操作 数 
必须 为 XMM RA YMM 寄存 器 。 此 指令 同时 需要 一 个 立即 数 来 指定 舍 人 模式 





vevtph2ps 






vcvtps2ph AVX 






2. FMA 指令 
FMA 指令 (融合 乘 加 指令 ) 包括 那些 对 组 合 浮 点 数 或 标量 浮 点 数 进 行 融合 乘 加 / 融合 乘 
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减 运 算 的 指令 。FMA 指令 的 运算 表达 式 如 下 所 示 : 


a-(b*c)«d 


对 于 上 面 的 每 个 表达 式 ， 处 理 器 仅 会 对 最 终 运 行 结果 进行 一 次 舍 人 处 理 ， 这 样 能 提高 运 
算 的 速度 和 精度 。 

所 有 FMA 指令 助 记 符 都 包含 三 个 带 顺 序 的 操作 符 标 识 (如 vfmadd132sd)， 用 来 指定 执 
行 乘 加 ( 减 ) 运算 的 源 操作 数 。 第 一 个 数字 (1) 指定 了 作为 被 乘 数 的 源 操作 数 ， 第 二 个 数 
F (3) 指定 了 作为 乘 数 的 源 操 作 数 ， 第 三 个 数字 (2) 指定 了 加 OR) 到 乘法 结果 的 源 操作 
数 。 璧 如 vfmadd132sd xmm0,xmm1,xmm2 指令 (变量 型 双 精 度 浮 点 数 的 融合 乘 加 运算 )， 寄 
存 器 XMMO, XMMI 和 XMM2 分 别 为 源 操 作 数 1、2 和 3。vfmadd132sd 指令 计算 (xmm0[63:0] 
* xmm2[63:0]) + xmml[63:0]， 按 MXCSR.RC 指定 的 舍 和 人 模式 对 最 终结 果 进 行 舍 人 处 理 ， 并 
将 舍 人 处 理 后 的 最 终结 果 保 存 到 xmm0[63:0] Fo 

FMA 指令 集 支持 组 合 型 和 标量 型 的 单 精度 浮 点 数 和 双 精 度 浮 点 数 。 组 合 型 FMA 指令 
可 以 使 用 XMM 寄存 器 或 YMM 寄存 器 。XMM 寄存 器 支持 使 用 两 个 (四 个 ) 双 精 度 浮 点 
RRA OS) 单 精度 浮 点 数 进行 运算 的 组 合 型 FMA 指令 。 标 量 型 浮 点 指令 则 仅 支 持 
XMM 寄存 器 。 对 于 所 有 的 FMA 指令 ， 第 一 个 和 第 二 个 源 操作 数 必须 是 寄存 器 ， 第 三 个 源 
操作 数 则 既 可 以 是 寄存 器 也 可 以 是 内 存 地 址 。 如 果 一 个 FMA 指令 使 用 XMM 寄存 器 作为 
目标 操作 数 ， 那 么 与 之 对 应 的 YMM 寄存 器 的 高 128 位 被 设置 为 0。 如 前 面 所 表述 的 那样 ， 
FMA 根据 MXCSR.RC 指定 的 舍 入 模式 仅 执 行 一 次 舍 人 操作 。 

FENA FMA 指令 集 。 这 些 指 令 集 被 分 为 6 个 小 类 以 便 理解 。 在 描述 这 些小 类 的 指令 
列表 中 ， 助 记 符 的 后 两 个 字符 分 别 表 示 不 同 的 数据 类 型 。pd 表示 组 合 双 精 度 浮 点 数 ; ps 表 
示 组 合 单 精 度 浮 点 数 ; sd 表示 标量 双 精 度 浮 点 数 ; ss 表示 标量 单 精 度 浮 点 数 。srcl src2 和 
src3 分 别 代表 三 个 源 操 作 数 ，des 则 表示 目标 操作 数 ， 与 srcl 相同 。 

(1) VFMADD 小 类 

VFMADD 小 类 包含 那些 对 组 合 浮 点 数 或 标量 浮 点 数 进行 融合 乘 加 运算 的 指令 。 表 12-12 
概述 了 这 类 指令 。 

表 12-12 FMA VFMADD 小 类 指令 


助 记 符 描述 
vfmadd132(pd|ps|sd|ss) des = srcl * src3 + src2 
vfmadd213(pd|ps|sd|ss) des = src2 * srcl + src3 
vfmadd23 1 (pd|ps|sd|ss) des = src2 * src3 + srcl 


(2) VFMSUB 小 类 
VFMSUB 小 类 包含 那些 对 组 合 型 浮 点 数 或 标量 型 浮 点 数 进行 融合 乘 减 运 算 的 指令 。 
表 12-13 概述 了 这 类 指令 


表 12-13 FMA VFMSUB 小 类 指令 


助 记 符 描述 
vfmsub132(pd|ps|sd|ss) des = srcl * src3 - src2 
vfmsub213(pd|ps|sd|ss) des = src2 * srcl — src3 
vfmsub231(pd|ps|sd|ss) des = src2 * src3 - srcl 
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(3) VFMADDSUB 小 类 
VFMADDSUB 小 类 包含 那些 对 组 合 型 数据 执行 乘法 运算 ， 并 对 源 操作 数 的 奇 元 素 执行 
加 法 运算 、 偶 元 素 执行 减 法 运算 的 指令 。 表 12-14 罗列 了 这 些 指令 。 


表 12-14 FMA VFMADDSUB 小 类 指令 


助 记 符 描述 
vfmaddsub132(pd|ps) des = srcl * src3 + src2 (src2 的 奇 元 素 ) des = srcl * src3 — src2 (src2 的 偶 元 素 ) 
vfmaddsub213(pd|ps) des = src2 * srel + src3 (src3 的 奇 元素) des = src2 * srcl — src3 (src3 的 偶 元 素 ) 
vfmaddsub23 1 (pd|ps) des = src2 * src3 + srcl (srel 的 奇 元 素 ) des = src2 * src3 - srcl (srel 的 偶 元 素 ) 


(4) VFMSUBADD 小 类 
VFMSUBADD 小 类 包含 那些 对 组 合 型 数据 执行 乘法 运算 ， 并 对 源 操作 数 的 奇 元 素 执行 
减法 运算 、 偶 元 素 执 行 加 法 运算 的 指令 。 表 12-15 罗列 了 这 些 指令 


表 12-15 FMAVFMSUBADD 小 类 指令 


助 记 符 描述 
vfmsubadd132(pdlps) des = srcl * src3 + src2 (src2 的 偶 元 素 ) des = srcl * src3 - src2 (src2 的 奇 元 素 ) 
vfmsubadd213(pdlps) des = src2 * srcl + src3 (src3 的 偶 元 素 ) des = src2 * srcl - src3 (src3 的 奇 元 素 ) 
345 Vfmsubadd231(pdlps) des = src2 * src3 + srcl (srel 的 侦 元 素 ) des = src2 * src3 — srel (srel 的 奇 元 素 ) 


(5) VFNMADD 小 类 
VFMNADD 小 类 包含 那些 负 的 融合 乘 加 运算 指令 。 表 12-16 罗列 了 这 些 指令 。 


表 12-16 FMA VFNMADD 小 类 指令 


助 记 符 描述 
vfnmadd132(pd|ps|sd|ss) des = - (srcl * src3) + src2 
vfnmadd213(pd|ps|sd|ss) des = - (src2 * srcl) + src3 
vinmadd231(pd|ps|sd|ss) des = — (src2 * src3) + srel 


(6) VFNMSUB 小 类 
VFMNSUB 小 类 包含 那些 负 的 融合 乘 减 运 算 指令 。 表 12-17 罗列 了 这 些 指令 


表 12-17 FMA VFNMSUB 小 类 指令 


助 记 符 描述 
vfnmsub132(pd|ps|sd|ss) des = — (srcl * src3) - src2 
vfnmsub213(pd|ps|sd|ss) des = - (src2 * srcl1) - src3 
vfnmsub231 (pd|ps|sd|ss) des — - (src2 * src3) - srcl 


3. 通用 寄存 器 指令 
这 一 组 包含 了 一 些 新 指令 ， 有 支持 增强 位 操作 的 指令 、 无 标记 旋转 和 位 移 操作 指令 ， 以 
及 无 标记 无 符号 整数 乘法 指令 。 表 12-18 概述 了 这 些 指令 。 可 以 通过 CPUID 的 功能 标志 位 
检查 当前 处 理 器 是 否 支 持 这些 指 令 。 


R 12-18 通用 寄存 器 指令 


将 第 二 个 源 操作 数 和 反 转 后 的 第 一 个 源 操作 数 按 位 进行 逻辑 与 操作 ， 并 将 结果 保存 到 


目标 操作 数 中 。 第 一 个 源 操作 数 和 目标 操作 数 必须 是 通用 寄存 器 。 第 二 个 源 操作 数 可 以 
为 内 存 地 址 或 者 通用 寄存 器 
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( 续 ) 
功能 标记 












描述 
根据 第 二 个 源 操作 数 所 指定 的 下 标 和 长 度 ， 提 取 第 一 个 源 操作 数 的 二 进 制 位 ， 并 将 其 
写 和 目标 操作 数 中 。 第 二 个 源 操 作 数 和 目标 操作 数 必 须 为 通用 寄存 器 。 第 一 个 源 操作 数 
可 以 为 内 存 地 址 或 通用 寄存 器 
提取 源 操作 数 的 最 低 一 位 ， 并 将 其 设置 到 目标 操作 数 对 应 的 位 置 。 目 标 操 作 数 其 他 的 
所 有 二 进 制 位 则 被 设置 为 0。 目标 操作 数 必须 为 通用 寄存 器 。 源 操作 数 可 以 为 内 存 地 址 或 
通用 寄存 器 
决定 源 操作 数 最 低 设 置 位 的 位 置 ， 将 此 位 以 及 所 有 比 此 位 低 的 位 均 设置 为 1。 目标 操作 
数 中 无 掩 码 标志 的 位 ， 均 设置 为 0。 源 操作 数 可 以 是 内 存 地 址 或 通用 寄存 器 。 目 标 操作 数 
必须 为 通用 寄存 器 
将 源 操 作 数 拷贝 至 目标 操作 数 ， 找 到 源 操 作 数 二 进 制 位 为 1 的 最 低位 。 将 目标 操作 数 
中 对 应 此 最 低位 的 位 重 置 为 0。 源 操作 数 可 以 是 内 存 地 址 或 通用 寄存 器 。 目 标 操作 数 必须 
为 通用 寄存 器 
拷贝 第 一 个 源 操 作 数 至 目标 操作 数 中 ,根据 第 二 个 源 操作 数 所 指定 的 下 标 ， 将 目标 操 
作 数 中 高 于 此 下 标的 所 有 位 清 0。 目 标 操作 数 和 第 二 个 源 操 作 数 必 须 为 通用 寄存 器 。 第 一 
个 源 操 作 数 可 以 为 内 存 地 址 或 通用 寄存 器 
统计 源 操作 数 中 前 导 零 的 个 数 ， 并 且 将 该 值 保存 至 目标 操作 数 。 如 果 源 操作 数 的 值 是 
0， 则 目标 操作 数 被 置 为 操作 数 大 小 。 此 指令 可 以 作为 bsr 指令 的 另 一 个 选择 : bsr 指令 
中 ， 如 果 源 操作 数 的 值 为 0， 则 目标 操作 数 为 未 定义 状态 
将 寄存 器 EDX 与 源 操作 数 做 无 符号 乘法 运算 。 运 算 结果 的 高 位 和 低位 分 别 保存 在 第 一 
个 和 第 二 个 目标 操作 数 中 。EFLAGS 的 状态 位 不 会 更 新 。 源 操作 数 可 以 为 内 存 地 址 或 通 
用 寄存 器 。 第 一 个 和 第 二 个 目标 操作 数 必须 为 通用 寄存 器 
根据 第 二 个 源 操作 数 所 指定 的 位 掩 码 ， 将 第 一 个 源 操作 数 的 低位 分 散 转 移 到 目标 操作 
数 中 ， 目 标 操作 数 不 在 掩 码 范围 内 的 位 被 置 0。 目 标 操作 数 和 第 一 个 源 操作 数 必须 为 通用 
寄存 器 。 第 二 个 源 操 作 数 可 以 为 内 存 地 址 或 通用 寄存 器 

按 从 低 到 高 的 顺序 ， 根 据 第 二 个 源 操作 数 所 指定 的 掩 码 ， 将 第 一 个 源 操 作 数 对 应 的 二 
进 制 位 依次 拷贝 至 目标 操作 数 中 。 目 标 操 作 数 和 第 一 个 源 操作 数 必 须 为 通用 寄存 器 。 第 
二 个 源 操作 数 可 以 为 内 存 地 址 或 通用 寄存 器 
将 通过 硬件 产生 的 随机 数 加 载 到 目标 操作 数 中 。 有 目标 操作 数 必须 为 通用 寄存 器 
根据 立即 数 所 指定 的 反 转 次 数 ， 将 源 操作 数 进 行 反 转 操作 。 此 指令 不 改变 EFLAGS 的 
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“| 状态 位 。 源 操作 数 可 以 为 内 存 地 址 或 通用 寄存 器 。 目 标 操作 数 必须 为 通用 寄存 器 
根据 第 二 个 源 操 作 数 所 指定 的 移 位 位 数 ， 对 第 一 个 源 操作 数 进行 移 位 操作 (算术 右 移 、 
au. | 逻辑 左 移 、 雇 辑 右 移 )， 并 将 结果 保存 到 目标 操作 数 中 。 不 改变 EFLAGS 的 状态 位 。 第 | VD 





一 个 源 操 作 数 可 以 为 内 存 地 址 或 通用 寄存 器 。 第 二 个 源 操 作 数 和 目标 操作 数 必须 为 通用 
寄存 器 
统计 源 操 作 数 中 尾部 零 的 个 数 。 如 果 源 操作 数 的 值 为 0， 则 目标 操作 数 设置 为 源 操作 数 
的 大 小 。 此 指令 可 以 作为 bsf 指令 的 另 一 个 选择 : bsf 指令 中 ， 如 果 源 操作 数 为 0， 则 目 
标 操 作 数 为 未 定义 状态 
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12.5 ”总结 


在 本 章 中 ， 我 们 学 习 了 x86-AVX 的 关键 内 容 ， 包 括 它 的 执行 环境 、 支 持 的 数据 类 型 和 
汇编 语言 指令 语法 。 同 时 我 们 也 探索 了 几 种 x86-AVX 相关 的 扩展 功能 ， 包 括 半 精度 浮 点 数 
转换 、FMA 指令 和 增强 的 通用 寄存 器 指令 。 不 过 这 些 知识 只 是 x86-AVX 学 习 征 途 的 开始 ， 
我 们 将 继续 在 第 13 章 到 第 16 章 中 通过 一 系列 示例 代码 来 阐释 本 章 的 内 容 。 
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第 13 章 | 


Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


x86-AVX 标量 浮 点 编程 


前 一 章 中 ， 我 们 学 习 了 x86-AVX 的 各 类 计算 资源 ， 包 括 它 的 执行 环境 、 支 持 的 数据 
类 型 以 及 指令 集 。 本 章 介 绍 x86-AVX 编程 ， 着 重 介绍 它 的 标量 浮 点 能 力 ， 用 若干 示例 程 
序 描述 如 何 执行 基本 的 标量 浮 点 运算 。 同 时 ， 本 章 也 准备 了 另外 几 个 使 用 x86-AVX 的 程 
序 ， 演 示 更 高 级 的 标量 浮 点 编程 方法 。 所 有 示例 程序 必须 在 支持 AVX 的 处 理 器 上 运行 。 
附录 C 中 列 出 了 一 些 工 具 ， 可 以 用 来 确定 你 的 PC 处 理 器 所 支持 的 x86-AVX 版 本 以 及 安 


13.1 编程 基础 

在 本 节 中 ， 将 学 习 如 何 使 用 x86-AVX 指令 集 进 行 基本 的 标量 浮 点 运算 。 第 一 个 示例 程 
序 演 示 了 基本 的 标量 浮 点 算术 和 运算， 包括 加 、 减 、 乘 、 除 各 类 运算 。 第 二 个 示例 程序 用 来 
说 明 标 量 浮 点 的 比较 操作 。 两 个 示例 程序 中 使 用 的 大 部 分 x86-AVX 指令 ， 相 较 于 其 相应 的 
x86-SSE， 有 简化 编程 的 辅助 效果 ， 后 面 会 详细 说 明 。 


13.1.1 标量 浮 点 运算 


第 一 个 程序 名 为 AvxScalarFloatingPointArithmetic， 演 示 了 使 用 x86-AVX 指令 集 执行 
基本 的 标量 双 精 度 浮 点 运算 。 清 单 13-1 和 清单 13-2 分 别 列 出 了 相应 的 C++ 和 汇编 语言 源 
代码 。 


清单 13-1 AvxScalarFloatingPointArithmetic.cpp 
#include "stdafx.h" 


extern "C" void AvxSfpArithmetic (double a, double b, double results[8]); 
int tmain(int argc, TCHAR* argv[]) 


const int n - 8; 
const char* inames[n] - 


"vaddsd", "vsubsd", "vmulsd", "vdivsd", 
"vminsd", "vmaxsd", "vsqrtsd a", "fabs b" 


J 


double a = 17.75; 
double b = -39.1875; 
double c[n]; 


AvxSfpArithmetic_(a, b, c); 


printf("\nResults for AvxScalarFloatingPointArithmetic\n"); 
printf("a: %.6lf\n", a); 
printf("b: %.6lf\n", b); 
for (int i = 0; i < n; i++) 
printf("%-14s %-12.6lf\n", inames[i], c[i]); 


_X86-AVX ARB GR RRA 


return 0; 
) 
清单 13-2. AvxScalarFloatingPointArithmetic .asm 
.model flat,c 
.const 
AbsMask qword 7fffffffffffffffh, 7fffffffffffffffh 
.code 


; extern "C" void AvxSfpArithmetic (double a, double b, double results[8]); 


; 描述 。 本 函数 演示 如 何 使 用 基本 的 标量 DPFP 运算 指令 


3 

; fee: AVX 

AvxSfpArithmetic_ proc 
push ebp 
mov ebp,esp 

; 加 载 参数 值 
mov eax, [ebp+24] jeax = 指向 results 数组 
vmovsd xmm0,real8 ptr [ebp+8] ;xmmo = a 
vmovsd xmm1,real8 ptr [ebp+16] ;xmmi = b 

; 使 用 AVX 标量 DPFP 指令 执行 基本 运算 
vaddsd xmm2,xmmo,xmm1 ;xmm2 = a +b 
vsubsd xmm3, xmmO, xmm1 ;xmm3 = a - b 
vmulsd xmm4, xmmo, xmm1 ;xmm4 = a * b 
vdivsd xmms,xmmo,xmm1 ;xmm5 -a/b 
vmovsd real8 ptr [eax«0],xmm2 ;保存 a +b 
vmovsd real8 ptr [eax«8],xmm3 ;保存 a -b 
vmovsd real8 ptr [eax+16] ,xmm4 ;保存 a * b 
vmovsd real8 ptr [eax+24] ,xmm5 ;保存 a / b 

; 计算 min(a，b)，max(a，b)，sqrt(a) fü fabs(b) 
vminsd xmm2, xmmo,xmm1i ;xmm2 - min(a, b) 
vmaxsd xmm3,xmmo, xmm1 ;xmm3 - max(a, b) 
vsqrtsd xmm4,xmmo, xmmo ;xmm4 = sqrt(a) 
vandpd xmm5,xmmi,xmmword ptr [AbsMask] ;xmm5 = fabs(b) 
vmovsd real8 ptr [eax+32] ,xmm2 ;保存 min(a，b) 
vmovsd real8 ptr [eax+40],xmm3 ;保存 max(a, b) 
vmovsd real8 ptr [eax+48] ,xmm4 ;保存 sqrt(a) 
vmovsd real8 ptr [eax+56] ,xmm5 ;保存 trunc(sqrt(a)) 
pop ebp 
ret 

AvxSfpArithmetic_ endp 
end 


AvxScalarFloatingPointArithmetic.cpp (lj 13-1) "PAY C++ 代码 很 清晰 ， 顶 部 声明 
了 汇编 语言 函数 AvxSpfArithmetic ， 它 有 三 个 参数 : 两 个 双 精 度 浮 点 参数 和 指向 results 数 
组 的 指针 。 函 数 _tmain 中 的 代码 执行 基本 的 程序 任务 ， 包 括 初始 化 测试 变量 a 和 b， 然 后 调 
用 函数 AvxSpfArithmetic ， 显 示 执 行 结 果 。 

用 汇编 语言 编写 的 函数 AvxSpfArithmetic_ 使 用 x86-AVX 指令 集 来 执行 几 种 常见 的 双 
精度 浮 点 运算 。 在 函数 序言 之 后 ， 指 令 vmovsd xmm0,real8 ptr [ebp+8] 把 参数 值 a 加 载 到 
XMMO 的 低 四 字 部 分 。x86-AVX 指令 vmovsd 几乎 与 x86-SSE 中 相应 的 指令 movsd 等 同 ， 
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除了 一 点 : 它 会 将 YMM0 寄存 器 的 高 192 位 ( ymmo[255:64]) 清 零 。 下 一 条 指令 vmovsd 
xmml,real8 ptr [ebp+16] 执行 类 似 的 操作 ， 把 参数 值 b 加 载 到 寄存 器 XMM 1。 

在 参数 值 a 和 b 分 别 加 载 到 寄存 器 XMM0 和 XMMI1 之 后 ， 指 令 vaddsd xmm2, 
xmm0,xmm1 把 XMMO 和 XMMI 中 的 标量 双 精 度 浮 点 值 相 加 ， 并 把 结果 存 人 XMM2 的 低 
四 字 部 分 。 与 对 应 的 x86-SSE 指令 不 同 ，vaddsd 会 执行 两 个 辅助 操作 : 将 XMMO 的 高 四 
字 拷 贝 到 XMM2 的 高 四 字 ( xmm2[127:64] = xmm0[127:64])， 同 时 把 YMM2 的 高 128 位 
( ymm2[255:128]) ET. 

接 下 来 的 三 条 指令 vsubsd, vmulsd 和 vdivsd 分 别 执行 标量 双 精 度 浮 点 减法 、 乘 法 和 除 
法 ， 这 些 指令 : 也 会 对 相应 的 目标 操作 数 执行 前 面 描述 的 从 属 操作 。 执 行 完 四 个 基本 运算 指令 
后 ， 使 用 一 系列 的 vmovsd 指令 将 计算 结果 保存 到 results 数组 中 。 注 意 ， 当 使 用 vmovsd fi 
令 时 的 目标 操作 数 是 内 存 地 址 时 ， 只 有 源 操作 数 的 低 四 字 部 分 会 被 拷贝 到 内 存 ， 不 会 发 生 额 
big hate e mae 

一 个 代码 块 描 述 了 指令 vminsd、 oa 同时 演示 了 使 用 
aisi 令 计 算 标 量 双 精 度 浮 点 数 的 绝对 值 。 指 令 vminsd xmm2,xmm0,xmml 和 vmaxsd 
xmm3,xmm0,xmml 分 别 计 算 min(a,b) 和 max(a, EE x86-AVX vsqrtsd 指令 需要 两 个 源 
操作 数 ， 但 是 只 计算 第 二 个 源 操作 数 的 平方 根 。 这 三 条 指令 会 将 第 一 个 源 操作 数 的 高 四 字 
部 分 拷贝 到 目标 操作 数 的 高 四 字 部 分 ， 同 时 将 ann YMM 寄存 器 的 高 128 位 
HE. 

指令 vandpd xmm5,xmm1,xmmword ptr [AbsMask] 对 两 个 组 合 双 精 度 浮 点 数 执行 按 位 与 
运算 ， 并 把 结果 保存 到 目标 操作 数 中 (没有 vandsd 这 样 的 指令 )。 这 条 指令 的 第 二 个 源 操作 
数 在 const 段 中 定义 ， 它 包含 了 一 个 用 来 清除 两 个 128 位 宽 组 合 双 精 度 浮 点 数 符号 位 的 位 组 
合 。 这 里 使 用 的 vandpd 指令 也 会 把 ymm5[255:128] 清 零 。 

读者 可 能 已 经 注意 到 函数 AvxSpfArithmetic_ 中 没有 任何 寄存 器 到 寄存 器 的 数据 传输 
指令 ,这 是 因为 x86-AVX 的 三 操作 数 语法 有 意 如 此 设计 ， 以 简化 编程 。 类 似 功 能 采用 x86- 
SSE 实现 ， 会 需要 若干 额外 的 寄存 器 到 寄存 需 或 内 存 到 寄存 器 的 movsd 指令 。 输 出 13-1 Sj 
示 了 AvxScalarFloatingPointArithmetic 的 运行 结果 。 


输出 13-1 示例 程序 AvxScalarFloatingPointArithmetic 
Results for AvxScalarFloatingPointArithmetic 


a: 17.750000 
b: -39.187500 
vaddsd -21.437500 
vsubsd 56.937500 
vmulsd -695.578125 
vdivsd -0.452951 
vminsd -39.187500 
vmaxsd 17.750000 
vsqrtsd a 4.213075 
fabs b 39.187500 


13.1.2 ”标量 浮 点 比较 


x86-AVX 指令 集 包含 几 种 不 同 的 指令 来 执行 标量 浮 点 比较 。vcomisd 和 vcomiss 指令 通过 设置 
EFLAGS 寄存 占 的 状态 位 来 表示 比较 结果 。 回 顾 第 8 章 的 示例 程序 ， 用 了 等 效 的 x86-SSE 指令 


_X86-AVX AREA ERI 


comisd 和 comiss 用 来 进行 标量 浮 点 比较 。 本 节 的 示例 程序 名 叫 AvxScalarFloatingPointCompare， 
它 描 述 了 如 何 使 用 x86-AVX 的 vempsd 指令 (比较 标量 双 精 度 浮 点 数 ) 来 比较 两 个 标量 双 精 度 
浮 点 数 。 为 示例 程序 AvxScalarFloatingPointCompare 所 写 的 C+ 和 汇编 语言 的 源 代码 分 别 见 清 
单 13-3 和 清单 13-4。 


清单 13-3 AvxScalarFloatingPointCompare.cpp 


#include "stdafx.h" 
#include «limits» 


using namespace std; 
extern "C" void AvxSfpCompare (double a, double b, bool results[8]); 


int tmain(int argc, TCHAR* argv[]) 


{ 
const int n = 4; 
const int m = 8; 
const char* inames[8] - 
( 
"vcmpeqsd", "vcmpneqsd", "vcmpltsd", "vcmplesd", 
"vcmpgtsd", "vcmpgesd", "vcmpordsd", "vcmpunordsd" 
double a[n] = ( 20.0, 50.0, 75.0, 42.0 ); 
double b[n] = { 30.0, 40.0, 75.0, 0.0 ); 
bool results[n][m]; 
b[3] = numeric limits«double»::quiet NaN(); 
printf("Results for AvxScalarFloatingPointCompare Wn"); 
for (int i = 0; i < n; i++) 
{ 
AvxSfpCompare (a[i], b[i], results[i]); 
printf("\na: %81f b: %81f\n", a[i], b[i]); 
for (int j = 0; j < m j++) 
printf("%12s = %d\n", inames[j], results[i][j]); 
} 
return 0; 
} 


清单 13-4 AvxScalarFloatingPointCompare .asm 


.model flat,c 
.code 


; extern "C" void AvxSfpCompare (double a, double b, bool results[8]); 
; 描述 。 本 函数 演示 如 何 使 用 x86-AVX 比较 指令 vcmpsd 

; 需要 : AVX 

AvxSfpCompare proc 


push ebp 
mov ebp,esp 


20 II 


; 加 载 参数 值 

vmovsd xmm0,real8 ptr [ebp+8] ;xmmo = a 

vmovsd xmmi,real8 ptr [ebp+16] ;xmm1 = b; 

mov eax, [ebp+24] jeax = 指向 results 数组 的 指针 
; 执行 等 于 比较 

vcmpeqsd xmm2,xmmO, xmm1 ;执行 比较 操作 

vmovmskpd ecx,xmm2 ;把 比较 结果 移 至 ecx B3 bit 0 

test ecx,1 ;测试 结果 位 

setnz byte ptr [eax+0] ;以 C++ bool 类 型 保存 结果 


; 执行 不 等 于 比较 。 注 意 如 果 使 用 了 QNaN 或 SNaN 操作 数 ，vcmpneqsd 返回 true 
vcmpneqsd xmm2,Xxmmo,xmm1 
vmovmskpd ecx,xmm2 
test ecx,1 
setnz byte ptr [eax«1] 


; 执行 小 于 比较 
vcmpltsd xmm2,xmmo,xmm1 
vmovmskpd ecx,xmm2 
test ecx,1 
356 setnz byte ptr [eax«2] 


; 执行 小 于 等 于 比较 
vcmplesd xmm2, xmmO, xmm1 
vmovmskpd ecx, xmm2 
test ecx,1 
setnz byte ptr [eax+3] 


; 执行 大 于 比较 
vcmpgtsd xmm2,xmmo,xmm1i 
vmovmskpd ecx,xmm2 
test ecx,1 
setnz byte ptr [eax«4] 


; 执行 大 于 等 于 比较 
vcmpgesd xmm2, xmmO, xmm1 
vmovmskpd ecx,xmm2 
test ecx,1 
setnz byte ptr [eax«5] 


; 执行 有 序 比较 
vcmpordsd xmm2,xmmo,xmm1i 
vmovmskpd ecx,xmm2 
test ecx,1 
setnz byte ptr [eax+6] 


; 执行 无 序 比较 
vcmpunordsd xmm2,xmmo, xmm1 
vmovmskpd ecx,xmm2 
test ecx,1 
setnz byte ptr [eax47] 


pop ebp 
ret 

AvxSfpCompare  endp 
end 





AvxScalarFloatingPointCompare.cpp ( J4 ifj % 13-3 ) 中 的 函数 tmain 包含 一 些 基 本 的 
C++ 语句， 使 用 了 不 同 的 测试 值 来 调用 汇编 语言 函数 AvxSfpCompare 。 需 要 注意 的 是 ， 双 
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精度 浮 点 数组 b 的 最 后 一 个 元 素 被 赋值 为 QNaN ( QNaN 值 在 第 3 章 中 介绍 过 )， 这 样 做 是 为 
了 演示 无 序 的 浮 点 比较 操作 。 对 于 每 对 测试 值 ， 函 数 _tmain 显示 了 八 种 不 同 双 精度 浮 点 比 
较 的 结果 。 

在 阅读 汇编 语言 源 代码 前 ， 还 需要 了 解 一 些 关 于 vcmpsd 指令 的 细节 。 接 下 来 的 解释 也 
适用 于 vempss( 比较 标量 单 精度 浮 点 数 ) 指令 。 这 些 指令 支持 两 种 不 同 的 汇编 语言 语法 格式 。 
第 一 种 格式 需要 四 个 操作 数 : 一 个 目标 操作 数 、 两 个 源 操作 数 和 一 个 指定 比较 谓词 的 立即 
数 。 包 括 MASM 在 内 的 大 部 分 x86 汇编 器 ， 也 支持 集成 了 比较 谓词 的 三 操作 数 伪 指令 格式 。 

vcmpsd 和 vempss 指令 支持 32 种 不 同 的 比较 谓词 ， 表 13-1 列 出 了 大 多 数 常用 的 比较 谓 
词 和 它们 对 应 的 操作 。 更 多 关于 比较 谓词 的 内 容 可 以 参考 附录 C 列 出 的 Intel fl AMD 指令 
参考 手册 。vcmpsd ( vcmpss) 指令 的 执行 会 产生 一 个 四 字 ( 双 字 ) 掩 码 结果 ,保存 到 目标 操 
作 数 。 掩 码 可 能 的 值 只 有 两 种 : 全 1 (比较 结果 为 真 ) 和 全 0 (比较 结果 为 假 )。 图 13-1 描述 
了 vempsd 和 vcmpss 指令 的 执行 情况 。 第 14 章 会 介绍 与 vcmpsd 和 vcmpss 指令 对 应 的 组 合 
版 本 。 


表 13-1 vcmpsd 和 vcmpss 常用 的 比较 谓词 


谓词 操作 值 谓词 dá $ 伪 指 令 
0 EQ Srcl == Src2 vempeqs(s|d) 
1 ET Srcl < Src2 vemplts(s|d) 
2 LE Srcl <= Src2 vemples(s|d) 
3 UNORD Srcl && Src2 是 无 序 的 vempunords(s|d) 
4 NEQ Srcl != Src2 vempneqs(s|d) 
13 GE Srcl>= Src2 vempges(s|d) 
14 GT Srcl > Src2 vempgts(s|d) 
7 ORD Srcl && Src2 是 有 序 的 vcmpords(s|d) 


vcmpsd xmm0,xmm1,xmm2,1 (或 vempltsd xmm0,xmml,xmm2) 








iki 上 述 的 例子 中 ，ymm0[255:128] 都 会 被 清 零 
图 13-1 vcmpsd 和 vcmpss 指令 的 执行 示意 图 


在 函数 AvxSfpCompare ( 见 清单 13-4) 的 序言 之 后 ， 使 用 两 条 vmovsd 指令 把 参 
数 a 和 b 分 别 加 载 到 寄存 器 XMM0 和 XMM1。 然 后 初始 化 指针 ， 指 向 results 数组 。 指 令 
vcmpeqsd xmm2,xmm0,xmml Xf a 和 b 进行 等 于 比较 ， 并 把 产生 的 组 合 掩 码 值 存 到 XMM2 
的 低 四 字 部 分 。 这 条 指令 也 会 执行 在 上 一 节 中 我 们 了 解 到 的 辅助 操作 。 更 具体 来 说 ， 所 有 
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vempsd ( vcmpss) 指令 会 把 源 操 作 数 高 64 (96) 位 的 值 拷贝 到 目标 操作 数 相应 的 位 置 ， 同 
时 将 目标 操作 数 对 应 的 YMM 寄存 器 的 高 128 位 清 零 。 

下 一 条 指令 vmovmskpd ecx,xmm2 将 源 操作 数 中 每 个 双 精 度 浮 点 数 的 符号 位 拷贝 到 目 
标 操 作 数 的 低位 (目标 操作 数 中 没有 使 用 的 高 位 会 被 清 零 )。 当 前 这 个 示例 程序 中 ,XMM2 
的 低 四 字 部 分 包含 vcmpeqsd 比较 操作 的 结果 ， 全 为 0 或 者 全 为 1。XMM2 的 高 四 字 部 分 的 
值 不 用 在 意 。 根 据 比较 结果 ,使 用 vmovmskpd 指令 对 寄存 器 ECX 清 零 。 后 续 的 指令 test 
ecx,1 和 setnz byte ptr [eax+0] 把 比较 结果 保存 到 results 数组 。 

除了 指定 的 比较 指令 ， 剩 余 的 比较 操作 都 使 用 同样 的 指令 序列 。 需 要 注意 的 是 ， 不 
同 于 x86-SSE cmpsd 和 cmpss 指令 ，vcmpsd 和 vcmpss 指 令 明 确 支 持 比 较 谓 词 GT 和 
GE。 另 外 需要 注意 的 是 ， 如 果 使 用 了 QNaN 或 SNaN 操作 数 ，vcmpneqsd 指令 会 返回 真 
值 (true)。 你 可 能 会 问 如 何在 vempsd/vempss 和 vcomisd/vcomiss 指令 间 选 择 。 后 两 条 指 
令 用 起 来 比较 简单 ， 但 是 只 支持 比较 少 的 比较 操作 。 前 一 组 指令 除了 支持 更 广泛 的 比较 谓 
词 外 ， 在 需要 位 掩 码 来 执行 规定 的 布尔 操作 时 ， 也 很 有 用 处 。 输 出 13-2 显示 了 示例 程序 
AvxScalarFloatingPointCompare 的 执行 结果 。 


输出 13-2 示例 程序 AvxScalarFloatingPointCompare 


Results for AvxScalarFloatingPointCompare 


a: 20.000000 b: 30.000000 


vcmpeqsd = 0 
vcmpneqsd = 1 
vcmpltsd - 1 
vcmplesd - 1 
vcmpgtsd - O 
vcmpgesd = 0 


vcmpordsd = 1 
vcmpunordsd = 0 


a: 50.000000 b: 40.000000 


vcmpeqsd = 0 
vcmpneqsd = 1 
vempltsd = 0 
vcmplesd = 0 
vempgtsd = 1 
vcmpgesd = 1 


vcmpordsd = 1 
vcmpunordsd = 0 


a: 75.000000 b: 75.000000 


vcmpeqsd = 1 
vcmpneqsd = 0 
vempltsd = 0 
vemplesd = 1 
vempgtsd = 0 
vempgesd = 1 


vcmpordsd = 1 
vcmpunordsd = 0 


a: 42.000000 b: 1.#0NANO 


vcmpeqsd = 0 
vcmpneqsd = 1 
vcmpltsd = 0 
vemplesd = 0 


vcmpgtsd = 0 
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vcmpgesd = 0 
vcmpordsd = 0 
vcmpunordsd = 1 


13.2 ”高 级 编程 

本 节 中 ， 将 学 习 如 何 使 用 x86-AVX 指令 集 执行 高 级 标量 浮 点 运算 。 第 一 个 示例 程序 演 
示 如 何 计 算 一 元 二 次 方程 的 根 。 第 二 个 示例 程序 利用 x86-AVX 标量 浮 点 计算 能 力 实 现 球 坐 
标 系 的 转换 ， 此 例 中 还 演示 了 在 使 用 x86-AVX 指令 集 的 汇编 语言 函数 中 如 何 使 用 标准 C++ 
库 函 数 。 相 对 于 x86-SSE, x86-AVX 具有 较 好 的 计算 优势 ， 同 时 程序 上 的 编写 也 更 简单 。 两 
个 示例 程序 都 反映 了 这 一 优势 。 
13.2.1 一 元 二 次 方程 的 根 

接 下 来 的 示例 程序 AvxScalarFloatingPointQuadEqu 将 演示 使 用 x86-AVX 48 S & it 
算 一 元 二 次 方程 的 根 ， 同 时 进一步 演示 如 何 使 用 x86-AVX 标量 浮 点 运算 指令 。 清 单 13-5 


is 


和 清单 13-6 中 分 别 包 含 了 AvxScalarFloatingPointQuadEqu 的 C++ Ail x86-AVX 汇编 语言 
代码 。 


清单 13-5 AvxScalarFloatingPointQuadEqu.cpp 


#include "stdafx.h" 
#include «math.h» 


extern "C" void AvxSfpQuadEqu (const double coef[3], double roots[2], = 
double epsilon, int* dis); 


void AvxSfpQuadEquCpp(const double coef[3], double roots[2], doublew 
epsilon, int* dis) 
( 

double a = coef[0]; 

double b - coef[1]; 

double c = coef[2]; 

double delta = b * b - 4.0 * a * c; 

double temp = 2.0 * a; 


if (fabs(a) < epsilon) 

{ 
*dis = 9999; 
return; 

if (fabs(delta) < epsilon) 
roots[0] = -b / temp; 
roots[1] = -b / temp; 
*dis = 0; 


} 
else if (delta > 0) 


{ 
roots[0] = (-b + sqrt(delta)) / temp; 
roots[1] = (-b - sqrt(delta)) / temp; 
*dis «1; 

) 
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// roots[0] 包含 实数 部 分 roots[1] 包含 虚数 部 分 
// 完整 的 结果 为 (r0，+r1)，(r0，-r1) 

roots[0] = -b / temp; 

roots[1] = sqrt(-delta) / temp; 

*dis = -1; 


int tmain(int argc, _TCHAR* argv[]) 


{ 


const int n = 4; 
const double coef[n * 3] = 


{ 
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2.0, 8.0, -15.0, // 不 同 实数 根 (b * b > 4 * a * Cc) 
1.0, 6.0, 9,0; // 相同 实数 根 (b * b = 4 * a * C) 
3.0, 2.0, 4.0, // AKAR (b* b<4* a * Cc) 
1.0e-13, 7.0, -5.0, // 无 效 的 a 值 


const double epsilon = 1.0e-12; 


printf("Results for AvxScalarFloatingPointQuadEqu\n") ; 


for (inti-0;i«n*3; i += 3) 


{ 


double roots1[2], roots2[2]; 
const double* coef2 = &coef[i]; 
int disi, dis2; 


AvxSfpOuadEquCpp(coef2, rootsi, epsilon, &dis1); 
AvxSfpQuadEqu (coef2, roots2, epsilon, &dis2); 


printf("\na: Xlf, b: %1f c: XlfAn", coef2[0], coef2[1], coef2[2]); 


if (disi !- dis2) 
{ 
printf("Discriminant compare error Wb"); 
printf("disi/dis2: %d/%d\n", disi, dis2); 
) 


switch (dis1) 


case 1: 
printf("Distinct real roots in"); 
printf("C++ roots: %1f %1f\n", rootsi[0], roots1[1]); 
printf("AVX roots: %1f %1f\n", roots2[0], roots2[1]); 
break; 


case 0: 
printf("Identical roots\n"); 
printf("C++ root: %1f\n", roots1[0]); 
printf("AVX root: %lf\n", roots2[0]); 
break; 


case -1: 
printf("Complex roots in"); 
printf("C++ roots: (Xlf %1f) ", roots1[0], roots1[1]); 
printf("(Xlf %1f)\n", rootsi[0], -rootsi[1]); 
printf("AVX roots: (Xlf Xlf) ", roots2[0], roots2[1]); 
printf("(Xlf %1f)\n", roots2[0], -roots2[1]); 


break; 


case 9999: 
printf("Coefficient 'a' is invalid n"); 
break; 


default: 


printf("Invalid discriminant value: %d\n", dis1); 
return 1; 


} 


return 0; 


清单 13-6 AvxScalarFloatingPointQuadEqu_.asm 
.model flat,c 


.Const 
FpNegateMask ^ qword 8000000000000000h,0 ; 双 精 度 浮 点 负 值 的 掩 码 
FpAbsMask qword 7FFFFFFFFFFFFFFFh,-1 ;计算 fabs() 的 掩 码 
r8 OpO real8 0.0 
r8 2p0 real8 2.0 
r8 4p0 real8 4.0 

.code 


; extern "C" void AvxSfpQuadEqu (const double coef[3], double roots[2], ~ 
double epsilon, int* dis); 


3 


> HR. 本 函数 使 用 公式 法 求解 一 元 二 次 方程 的 根 


3 


> 需要 : AVX 


AvxSfpQuadEqu_ proc 


3 


3 


, 


push ebp 
mov ebp,esp 

; 加 载 参数 值 
mov eax, [ebp+8] ;eax = 指向 coef 数组 
mov ecx, [ebp+12] ;ecx = 指向 roots 数组 
mov edx, [ebp+24] ;edx = 指向 dis 
vmovsd xmm0,real8 ptr [eax] ;xmmO = a 
vmovsd xmm1,real8 ptr [eax+8] ;xmmi = b 
vmovsd xmm2,real8 ptr [eax+16] ;xmm2 - c 
vmovsd xmm7,real8 ptr [ebp+16] ;xmm7 - epsilon 

; 确保 系数 a 是 有 效 的 
vandpd xmm6,xmmo, [ FpAbsMask] ;xmm2 - fabs(a) 
vcomisd xmm6,xmm7 
jb Error ;如 果 fabs(a) « epsilon， 跳 转 

; 计算 中 间 值 
vmulsd xmm3,xmm1,xmm1 ;mm3-b*b 
vmulsd xmm4,xmmo, [r8 4po] ;Xmm4 = 4*a 
vmulsd xmm4,xmm4,xmm2 ;mm-24*a*c 
vsubsd xmm3, xmm3, xmm4 ;mm3-b*b-4*a*c 
vmulsd xmmo,xmmo,[r8 2po] ;xm0-2*a 
vxorpd xmmi,xmmi, [FpNegateMask] ;xmm1 = -b 

测试 delta 值 ， 确 定 根 的 类 型 

vandpd xmm2,xmm3,[FpAbsMask] ;xmm2 = fabs(delta) 


vcomisd xmm2,xmm7 
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jb IdenticalRoots 
vcomisd xmm3,[r8 Opo] 
jb ComplexRoots 
; 相 异 实数 根 


;如 果 fabs(delta) < epsilon， 跳 转 


;如 果 delta « 0.0， 跳 转 


; 11 = (-b + sqrt(delta)) / 2 * a, r2 = (-b - sqrt(delta)) / 2 * a 


vsqrtsd xmm3,xmm3,xmm3 

vaddsd xmm4, xmm1, xmm3 

vsubsd xmms,xmmi,xmm3 

vdivsd xmm4,xmm4,xmmo 

vdivsd xmm5,xmm5,xmmO 

vmovsd real8 ptr [ecx],xmm4 
vmovsd real8 ptr [ecx+8],xmm5 
mov dword ptr [edx],1 

jmp done 


; 相同 实数 根 
a eas = E g 
IdenticalRoots: 
vdivsd xmm4,xmm1, xmmO 
vmovsd real8 ptr [ecx],xmm4 
vmovsd real8 ptr [ecx48],xmm4 
mov dword ptr [edx],0 
jmp done 


; 复数 根 


;xmm3 = sqrt(delta) 
;xmm4 = -b + sqrt(delta) 
;xmm5 - -b - sqrt(delta) 
;xmm4 = 实数 根 r1 

;xmm5 = 实数 根 r2 

;保存 r1 

;保存 r2 


;*dis = 1 


1 a 


;mm4--b/2*a 
;保存 r1 
;保存 r2 


;*dis s 0 


; 实 部 real = -b / 2 * a， 虑 部 imag= sqrt(-delta) / 2 * a 
; 方程 根 : r1 = (real, imag), r2 = (real, -imag) 


ComplexRoots: 
vdivsd xmm4,xmm1, xmmO 


vxorpd xmm3,xmm3, [FpNegateMask] 


vsqrtsd xmm3,xmm3,xmm3 

vdivsd xmms,xmm3 , xmmo 

vmovsd real8 ptr [ecx],xmm4 
vmovsd real8 ptr [ecx+8],xmm5 
mov dword ptr [edx],-1 


Done: pop ebp 
ret 


mov dword ptr [edx],9999 
pop ebp 

ret 

AvxSfpQuadEqu endp 

end 


Error: 


;xmm4- -b/2*a 

;xmm3 - -delta 

;xmm3 = sqrt(-delta) 

;xmm5 = sqrt(-delta) / 2 * a 
;保存 实 部 

;保存 虚 部 

;*dis = -1 


;*dis = 9999 ( 错误 码 ) 


B 


13 È 


一 元 二 次 方程 是 形 如 ax*+bx+tc=0 的 多 项 式 等 式 。 其 中 , x 是 未 知 数 ，a、b 和 c 是 常量 
系数 ， 并 且 系 数 a 必须 不 为 0。 对 于 x， 一 元 二 次 方程 总 是 有 两 个 解 ， 称 为 根 。 一 元 二 次 方 


程 的 根 可 以 使 用 如 下 公式 计算 : 


-b + Vb —4ac 





2a 


根据 公式 ， 根 的 情况 有 三 种 ， 这 取决 于 a、b、c 的 值 。 表 13-2 描述 了 这 三 种 情况 。 示 
例 程序 AvxScalarFloatingPointQuadEqu 使 用 此 公式 和 表 13-2 所 示 的 判别 式 来 计算 一 元 二 次 


方程 的 根 。 


注意 本 节 中 所 使 用 的 算法 旨 在 说 明 如 何 使 用 x86-AVX 指令 集 计 算 一 元 二 次 方程 的 根 。 
如 想 了 解 更 多 关于 使 用 二 次 公式 解 一 元 二 次 方程 的 信息 ， 请 参考 附录 C 中 所 列 的 文档 。 


表 13-2 一 元 二 次 方程 解 的 三 种 形式 


判别 式 根 类 型 描 R 
b -4ac » 0 相 异 实数 根 rootl 和 root2 不 等 
b? -4ac 20 相同 实数 根 root] 和 root2 相等 
b? -4ac <0 复数 根 rootl 和 root2 不 等 


用 C++ 编写 的 示例 程序 AvxScalarFloatingPointQuadEqu ( 见 清 单 13-5) 中 包含 函数 
AvxSfpQuadEquCpp， 它 用 来 计算 二 次 方程 的 根 。 此 也 数 模仿 汇编 语言 也 数 AvxSfpQuadEqu_ 
编写 ， 其 目的 是 验证 计算 结果 。 在 _tmain 函数 中 包含 了 一 些 语句 来 执行 测试 用 例 初始 化 、 结 
果 比 较 和 输出 显示 。 

在 x86-AVX 1L fiis ri PRA AvxSfpQuadEqu ( 见 清 单 13-6 ) 的 开始 ， 使 用 三 条 vmovsd 
指令 把 系数 a、b 和 c 分别 加 载 到 寄存 器 XMM0、XMMI1 和 XMM2， 接 着 的 vmovsd 指令 把 
参数 epsilon 加 载 到 寄存 器 XMM7。 计 算 根 之 前 ， 函 数 AvxSfpQuadEqu 必须 验证 系数 a 是 
不 是 不 等 于 0。 需 要 注意 的 是 ， 对 于 浮 点 数 ， 不 推荐 直接 使 用 常数 比较 ， 浮 点 运算 的 特性 可 
能 会 导致 这 样 的 比较 突然 失效 。 函 数 中 采用 了 一 种 替代 的 方法 ,测试 系数 a 是 否 接近 0。 由 
两 条 指令 vandpd xmm6,xmm0,[FpAbsMask] 和 vcomisd xmm6,xmm7 来 完成 这 项 工作 ， 它 们 
判断 关系 表达 式 fabs(a)<epsilon 是 否 为 真 。 如 果 表 达 式 为 真 ， 则 系数 a 被 认为 是 无 效 的 ， 函 
数 会 中 止 计算 。 

验证 完 系 数 a 的 有 效 性 后 ， 函 数 AvxSfpQuadEqu 接着 计算 几 个 中 间 值 ， 包 括 判别 式 
delta=b*b-4*a*x, WIRKA RIA fabs(delta)<epsilon HH, delta 被 认为 等 于 0， 则 跳 转 到 
处 理 相同 实数 根 的 部 分 ;如果 delta<0 为 真 ， 跳 转 到 处 理 复数 根 的 部 分 ;如 果 delta>0 HEL, 
则 跳 转 到 不 同 实数 根 的 部 分 进行 处 理 。 

K 13-3 总 结 了 函数 AvsSfpQuadEqu_ 用 来 计算 根 所 用 的 方程 式 。 计 算 时 使 用 了 前 一 个 
中 间 值 和 x86-AVX 标量 双 精 度 浮 点 运算 指令 vsqrtsd、vaddsd、vsubsd 和 vdivsd。 函 数 也 设 
置 dis 为 如 下 值 : +1 ( 相 异 实数 根 )，0 (相同 实数 根 )，-1 (复数 根 )，9999 (系数 a 无效 )。 
这 用 来 通知 调用 者 所 解 根 的 类 型 ， 同 时 便于 对 结果 的 进一步 处 理 。 


R 13-3 根 计 算 公 式 


条 件 根 计 算 公 式 
相 异 实数 根 rl = (-b + sqrt(delta)) / 2 * a 
12 = (-b - sqrt(delta)) / 2 * a 
相同 实数 根 rl=-b/2*a 
12=-b/2*a 
复数 根 real = -b / 2 * a; imag  sqrt(-delta) / 2 * a 


rl = (real, imag) 
r2 = (real, -imag) 





读者 可 能 已 经 注意 到 了 ， 函 数 AvxSfpQuadEqu 没有 使 用 任何 vmovsd 指令 执行 寄存 器 
到 寄存 器 的 数据 传输 。 实 际 上 这 是 因为 x86 AVX 的 三 操作 数 语 法 指令 实现 了 同样 的 直接 效 
果 。 输 出 13-3 中 列 出 了 示例 程序 AvxScalarFloatingPointQuadEqu 的 执行 结果 。 


输出 13-3 示例 程序 AvxScalarFloatingQuadEqu 
Results for AvxScalarFloatingPointQuadEqu 
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a: 2.000000, b: 8.000000 c: -15.000000 
Distinct real roots 

C++ roots: 1.391165 -5.391165 

AVX roots: 1.391165 -5.391165 


a: 1.000000, b: 6.000000 c: 9.000000 
Identical roots 

C++ root: -3.000000 

AVX root: -3.000000 


a: 3.000000, b: 2.000000 c: 4.000000 

Complex roots 
C++ roots: (-0.333333 1.105542) (-0.333333 -1.105542) 
AVX roots: (-0.333333 1.105542) (-0.333333 -1.105542) 


a: 0.000000, b: 7.000000 c: -5.000000 
Coefficient 'a' is invalid 


13.2.2 Sk 


本 节 最 后 的 x86-AVX 标量 浮 点 示例 程序 名 叫 AvxScalarFloatingPointSpherical, CEE 
两 个 汇编 语言 函数 ， 能 够 把 三 维 坐 标 在 直角 坐标 系 和 球 坐 标 系 之 间 进 行 转 换 。 示 例 程序 中 还 
演示 了 如 何在 使 用 x86-AVX 指令 的 汇编 语言 函数 中 调用 标准 库 函 数 。 清 单 13-7 和 清单 13-8 
分 别 列 出 了 示例 程序 的 C++ 和 汇编 语言 源 代 码 。 


清单 13-7 AvxScalarFloatingPointSpherical.cpp 


#include "stdafx.h" 
#include «float.h» 
#define USE MATH DEFINES 
#include «math.h» 


extern "C" bool RectToSpherical (const double r coord[3], double~ 
s coord[3]); 
extern "C" bool SphericalToRect (const double s coord[3], double 
r coord[3]); 


extern "C" double DegToRad - M PI / 180.0; 
extern "C" double RadToDeg - 180.0 / M PI; 


void PrintCoord(const char* s, const double c[3]) 


printf("Xs %14.81f X14.81f %14.81f\n", s, c[0], c[1], c[2]); 


} 
int _tmain(int argc, _TCHAR* argv[]) 
{ 
const int n = 7; 
const double r_coords[n * 3] = 
{ 
// x coord y coord z coord 
2.05 3.0; 6.0, 
EY 2405 2.0 * M SQRT2, 
0.0, M SORT2 / 2.0, -M SQRT2 / 2.0, 
M SORT2, — 1.0, -1.0, 
0.0, 0.0, M SQRT2, 


siet 0.0, 0.0, 


x86-AVX HEF EAE 


0.0, 0.0, 0.0, 
}; 
printf("Results for AvxScalarFloatingPointSpherical\n\n"); 


for (int i = 0; i < n; i+) 


{ 
double r_coordi[3], s_coordi[3], r coord2[3]; 
r coordi[0] = r coords[i * 3]; 
r coordi[1] = r coords[i * 3 + 1]; 
r coord1[2] = r coords[i * 3 + 2]; 
RectToSpherical (r coordi, s coordi); 
SphericalToRect (s coordi, r coord2); 
PrintCoord("r coordi (x,y,z): ", r coord1); 
PrintCoord("s coordi (r,t,p): ", s coord1); 
PrintCoord("r coord2 (x,y,z): ", r coord2); 
printf("\n"); 
} 
return 0; 
} 
清单 13-8 AvxScalarFloatingPointSpherical_.asm 
.model flat,c 
.const 
Epsilon real8 1.0e-15 
r8 OpO real8 0.0 
r8 90p0 real8 90.0 
.code 


extern DegToRad:real8, RadToDeg:real8 
extern sin:proc, cos:proc, acos:proc, atan2:proc 


; extern "C" bool RectToSpherical (const double r coord[3], double 
s coord[3]); 


> 描述: 本 函数 把 直角 坐标 系 转换 为 球 坐标 系 


3 


; 需要 ，AVX 
RectToSpherical proc 
push ebp 
mov ebp,esp 
push esi 
push edi 
sub esp,16 ;为 acos 和 atan2 的 参数 预 留 空 间 
; 加 载 参 数值 
mov esi,[ebp+8] jesi = 指向 r_coord 
mov edi,[ebp+12] ;edi = 指向 s_coord 
vmovsd xmm0,real8 ptr [esi] ;xmm0 = x 坐标 
vmovsd xmmi,real8 ptr [esi+8] ;xmml = y 坐标 
vmovsd xmm2,real8 ptr [esi+16] ;xmm2 = z 坐标 
; WEÉr-sqrt(x *x +y *y +z *z) 
vmulsd xmm3,xmmo,xmmO ;xmm3-x*x 
vmulsd xmm4,xmm1, xmm1 ;mm = y * y 


vmulsd xmm5 ,xmm2 ,xmm2 ;mm5-z*z 
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vaddsd xmm6, xmm3 , xmm4 
vaddsd xmm6, xmm6, xmm5 
vsqrtsd xmm7, xmm7,xmm6 


; 计算 phi = acos(z / r) 
vcomisd xmm7,real8 ptr [Epsilon] 
jae LB1 
vmovsd xmm4,real8 ptr [r8 opo] 
vmovsd real8 ptr [edi],xmm4 
vmovsd xmm4,real8 ptr [r8 90po] 
vmovsd real8 ptr [edi«16],xmm4 
jmp LB2 


LB1: vmovsd real8 ptr [edi],xmm7 
vdivsd xmm4,xmm2,xmm7 
vmovsd real8 ptr [esp],xmm4 
call acos 
fmul real8 ptr [RadToDeg] 
fstp real8 ptr [edi+16] 


; 计算 theta = atan2(y, x) 

LB2: vmovsd xmm0,real8 ptr [esi] 
vmovsd xmmi,real8 ptr [esi+8] 
vmovsd real8 ptr [esp48],xmmo 
vmovsd real8 ptr [esp],xmmi 
call atan2 
fmul real8 ptr [RadToDeg] 
fstp real8 ptr [edi+8] 


add esp,16 

pop edi 

pop esi 

pop ebp 

ret 
RectToSpherical  endp 


;xmm7 = Y 


;如 果 r >= epsilon 则 跳 转 
;设置 rr 为 0.0 

;保存 r 

;phi = 90.0 È 

;保存 phi 


;保存 r 


;xmm4 = Z / Y 


;保存 在 栈 上 


;转换 phi 为 角度 单位 
;保存 phi 


ii 
x 


;xmmo 
;Xmm1 


中 
-— 


;转换 theta 为 角度 单位 
;保存 theta 


; extern "C" bool SphericalToRect(const double s coord[3], double~ 


r coord[3]); 
; 描述 。 本 函数 把 球 坐标 系 转换 为 直角 坐标 系 
TT AVX 


; 局 部 栈 变 量 

; ebp-8 sin(theta) 
ebp-16 . cos(theta) 
ebp-24 . sin(phi) 
ebp-32 cos(phi) 


w^ we we 


SphericalToRect_ proc 
push ebp 
mov ebp,esp 
sub esp, 32 
push esi 
push edi 
sub esp,8 


; 加 载 参数 值 
mov esi,[ebp+8] 
mov edi,[ebp+12] 


: 计算 sin(theta) 和 cos(theta) 


; 预 留 局 部 变量 所 用 空间 


; 预 留 sin 和 cos 参数 所 需 空间 


jesi = 指向 s coord 
;edi = 指向 r_coord 


$13* 


_X86-AVX ABE RRA ë Aa 


vmovsd xmm0,real8 ptr [esi+8] ;xmm0 = theta 
vmulsd xmm1,xmm0,real8 ptr [DegToRad]  ;xmmi = theta (弧度 单位 ) 
vmovsd real8 ptr [ebp-16],xmm1 ;保存 最 后 使 用 的 theta 
vmovsd real8 ptr [esp],xmmi 
call sin 
fstp real8 ptr [ebp-8] ;保存 sin(theta) 
vmovsd xmm1,real8 ptr [ebp-16] ;xmm1 -theta (弧度 单位 ) 
vmovsd real8 ptr [esp],xmm1 
call cos 
fstp real8 ptr [ebp-16] ;保存 cos(theta) 

; 计算 sin(phi) fü cos(phi) 
vmovsd xmm0,real8 ptr [esi+16] ;xmmo = phi 
vmulsd xmm1,xmmO,real8 ptr [DegToRad]  ;xmmi = phi (弧度 单位 ) 
vmovsd real8 ptr [ebp-32],xmmi ;保存 最 后 使 用 的 phi 
vmovsd real8 ptr [esp],xmmi 
call sin 371 
fstp real8 ptr [ebp-24] ;保存 sin(phi) 
vmovsd xmm1,real8 ptr [ebp-32] ;xmm1 = phi (弧度 单位 ) 
vmovsd real8 ptr [esp],xmmi 
call cos 
fstp real8 ptr [ebp-32] ;保存 cos(phi) 


; 计算 x =r * sin(phi) * cos(theta) 
vmovsd xmm0,real8 ptr [esi] ;xmmo 
vmulsd xmm1,xmm0,real8 ptr [ebp-24] ;xmmi 
vmulsd xmm2,xmm1,real8 ptr [ebp-16] ;xmm2 
vmovsd real8 ptr [edi],xmm2 ;保存 x 


r 
r * sin(phi) 
r*sin(phi)*cos(theta) 


; 计算 y =r * sin(phi) * sin(theta) 
vmulsd xmm2,xmm1,real8 ptr [ebp-8] ;xmm2 = r*sin(phi)*sin(theta) 
vmovsd real8 ptr [edi+8] ,xmm2 ;计算 y 


; 计算 z =r * cos(phi) — 
vmulsd xmm1,xmm0,real8 ptr [ebp-32] ;xmmi = r * cos(phi) 


vmovsd real8 ptr [edi+16],xmm1 ;计算 z 
add esp,8 
pop edi 
pop esi 
mov esp,ebp 
pop ebp 
ret 
SphericalToRect endp 
end 
在 阅读 源 代码 前 ， 我 们 快速 回顾 z 







一 下 三 维 坐标 系 的 基础 知识 。 三 维 空间 
中 的 点 能 够 被 有 序 元 组 (x,，y,，z) HE 
一 确定 , x、y 和 z 分 别 表示 从 原点 到 
两 个 相互 垂直 平面 的 有 符号 距离 。 有 序 


pe. y, 2) X (r,0, o) 





TEA (x, y, z) 通常 称 为 直角 坐标 或 7 
者 笛 卡 儿 坐 标 。 三 维 空间 中 的 点 也 可 sf 
以 由 向 量 六 角 0 和 角 9 唯一 确定 ， 如 A E EAT A C) 


图 13-2 所 示 ， 有 序 元 组 Cr, 0, 9) 被 X 
称 为 球 坐 标 。 图 13-2 用 直角 坐标 系 和 球 坐 标 系 表示 三 维 空间 中 的 点 ”B32 
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三 维 空间 中 的 点 可 以 用 直角 坐标 或 者 球 坐 标 表示 ， 转 换 公 式 如 下 : 
r= Vx +y ba^, rz 


0 -arctan ( 7-), --p ms 


-1 zZ 
Q = cos [ET Osos 
x = rsingcosÜ, y = rsingsinĝ, z = rcos@ 

计算 9 值 的 反正 切 函 数 对 应 于 C++ 标准 函数 atan2， 它 使 用 有 符号 的 x 和 ?来 确定 正确 
的 象限 。 

在 AvxScalarFloatingPointSpherical.cpp 文件 (WL yf 13-7) 的 项 部 声明 了 坐标 转换 函 
数 。 两 个 函数 都 使 用 包含 三 个 双 精 度 浮 点 元 素 的 数组 来 表示 直角 坐标 和 球 坐 标 。 数 组 r_ 
coord 中 的 元 素 0、1 和 2 分 别 对 应 直角 坐标 的 x、y 和 z 值 ， 同 样 ， 数 组 s coord 中 的 三 个 
元 素 分 别 对 应 球 坐 标的 -、9 Allg. _tmain 函数 中 准备 了 一 些 实例 ， 使 用 一 个 简单 的 循环 来 
测试 汇编 语言 编写 的 坐标 系 转换 函数 ， 并 打印 出 测试 结果 。 

源 文件 AvxScalarFloatingPointSpherical .asm ( 见 清 单 13-8 ) 包含 两 个 汇编 语言 函数 : 
RectToSpherical 和 SphericalToRect . E PK #{ RectToSpherical 的 序言 之 后 ， 指 令 sub 
esp,16 为 两 个 双 精 度 浮 点 数 分 配 了 栈 空间 ， 用 来 存储 调用 C++ 标准 函数 acos 和 atan2 时 的 
参数 。 接 着 把 直角 坐标 的 x、y 和 z 值 分 别 加 载 到 寄存 器 XMM0、XMM1 fil XMM2, 使 用 
的 是 一 系列 vmovsd 指令 。 然 后 ， 根 据 之 前 定义 的 公式 计算 r 值 ， 并 将 其 保存 在 s_coord 数 
组 的 适当 位 置 。 

计算 phi (也 就 是 p) ZA, PAX RectToSpherical 必须 确定 r 是 否 小 于 Epsilon。 如 果 
INF, Ir 会 被 截断 为 0 同时 phi 设置 为 90 度 ; 和 否则， 函数 RectToSpherical 计算 zir 并 把 商 
存储 到 堆栈 上 。 然 后 调用 C++ ERMEE PRA acos 计算 zir 的 反 余 弦 值 。 注 意 ， 根 据 32 位 程序 
的 Visual C++ 调用 约定 ， 调 用 函数 没有 必要 保存 高 内 存 地 址 coord 
XMM 寄存 器 的 内 容 ， 这 意味 着 在 执行 完 acos 之 
Ja, XMM 寄存 器 的 内 容 是 不 确定 的 。 

函数 acos 把 返回 值 保 存在 x87 FPU 寄存 器 栈 


上 ， 该 值 从 弧度 单位 转换 为 角度 单位 ， 并 存储 到 数 
组 s_coord 中 。 接 着 计算 theta ff ( 即 6 值 )。C++ sin (theta) low dword 
FE PK% atan2 所 需 的 参数 x 和 y 在 调用 atan2 前 复 
制 到 了 堆栈 中 。 执 行 完 atan2 之 后 ，x87 FPU 栈 中 ca ov et 


包含 以 弧度 单位 表示 的 theta。 此 值 也 被 转换 为 角 EM 


度 单位 ， 并 存储 到 数组 s_coord 中 。 
PR, SphericalToRect_ 相 比 于 RectToSpherical 来 
说 复杂 一 些 ， 在 球 坐 标 系 转换 到 直角 坐标 系 时 ， 需 
要 计算 若干 中 间 值 。SphericalToRect 在 程序 开始 
时 为 中 间 值 分 配 了 32 hiis ciim 包括 sin(8), 
cos(0), sin(x) 和 cos(x). 1&8 4 sub esp,8 Jy XX fii HE 
浮 点 参数 值 分 配 了 栈 空间 ， 用 来 为 库 函 数 sin 和 低 内 存 地 址 
cos 传递 参数 值 。 图 13-3 调用 sin 和 cos 指令 前 栈 的 内 容 
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EF A AER ALIA, PAB SphericalToRect_ 开始 计算 sin(6) 和 cos(®). Al 13-3 
显示 了 调用 sin 和 cos 前 栈 的 内 容 。 注 意 在 调用 cos 指令 前 0 必须 拷贝 一 份 存 储 在 栈 上 ， 因 
为 库 函 数 sin 可 能 会 改变 其 栈 上 的 原始 值 。 然 后 用 同样 的 方式 计算 sin(a) 和 cos(x)。 所 需要 
的 正弦 值 和 余弦 值得 到 后 ， 计 算 相 应 的 直角 坐标 系 分 量 x、y 和 z， 并 保存 到 数组 r_coord 中 。 
输出 13-4 显示 了 示例 程序 AvxScalarFloatingPointSpherical 的 输出 结果 。 


输出 13-4 ”示例 程序 AvxScalarFloatingPointSpherical 
Results for AvxScalarFloatingPointSpherical 


r coordi (x,y,z): .00000000 3.00000000 6.00000000 
s coordi (r,t,p): 7.00000000 56.30993247 31.00271913 


N 


r coord2 (x,y,z): 2.00000000 3.00000000 6.00000000 
r coordi (x,y,z): -2.00000000 -2.00000000 2.82842712 
s coordi (r,t,p): 4.00000000 -135.00000000 45.00000000 
r coord2 (x,y,z): -2.00000000 -2.00000000 2.82842712 
r coordi (x,y,z): 0.00000000 0. 70710678 -0.70710678 
s coordi (r,t,p): 1.00000000 ^ 90.00000000  135.00000000 
r coord2 (x,y,z): 0.00000000 0.70710678 -0.70710678 
r coordi (x,y,z): 1.41421356 1.00000000 -1.00000000 
s coordi (r,t,p): 2.00000000 =35.26438968 . 120.00000000 
r coord2 (x,y,z): 1.41421356 1.00000000 -1.00000000 
r coordi (x,y,z): 0.00000000 0.00000000 1.41421356 
s coordi (r,t,p): 1.41421356 0.00000000 0.00000000 
r coord2 (x,y,z): 0.00000000 0.00000000 1.41421356 
r coordi (x,y,z): -1.00000000 0.00000000 0.00000000 
s coordi (r,t,p): 1.00000000 — 180.00000000 90.00000000 
r coord2 (x,y,z): -1.00000000 0.00000000 0.00000000 
r coordi (x,y,z): 0.00000000 0.00000000 0.00000000 
s coord1 (r,t,p): 0.00000000 0.00000000 90.00000000 
r coord2 (x,y,z): 0.00000000 0.00000000 0.00000000 


13.3 总结 

在 本 章 中 ， 我 们 学 习 了 如 何 使 用 x86-AVX 指令 集 执 行 标量 浮 点 运算 ， 你 应 该 渐渐 了 解 
了 一 些 x86-SSE 和 x86_AVX 的 差异 。 正 如 本 章 的 示例 程序 所 展示 的 ，x86_AVX 为 编程 人 员 
提供 了 许多 有 益 特 征 ， 包 括 简化 汇编 编程 以 及 减少 寄存 器 到 寄存 器 的 数据 传输 。 下 一 章 中 ， 
我 们 将 继续 学 习 x86-AVX 指令 集 的 组 合 浮 点 运算 功能 。 


第 14 章 | 


Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


x86-AVX 组 合 浮 点 编程 


第 9 章 中 ， 我 们 已 经 熟悉 了 x86-SSE 的 组 合 浮 点 相关 知识 ， 本 章 将 探索 x86-AVX 的 组 
合 浮 点 运算 能 力 。 本 章 的 示例 程序 将 演示 如 何 对 256 位 宽 的 操作 数 做 基本 的 组 合 浮 点 运算 , 
也 将 展示 如 何 使 用 x86-AVX 指令 来 对 浮 点 数组 和 矩阵 做 运算 。 本 章 中 的 例子 只 能 在 支持 
AVX 的 处 理 器 和 操作 系统 上 运行 。 另 外 ， 附 录 C 中 列 出 了 一 些 可 自由 使 用 的 工具 ， 可 以 用 
它们 来 确定 你 的 PC 是 否 支持 AVX. 


14.1 编程 基础 

本 节 中 有 两 个 示例 程序 ， 用 来 演示 使 用 x86-AVX 指令 集 对 组 合 浮 点 数 做 基本 操作 。 第 
一 个 示例 程序 对 256 位 宽 组 合 操作 数 执行 单 精度 和 双 精 度 浮 点 运算 ， 第 二 个 示例 程序 演示 组 
合 浮 点 数 的 比较 操作 。 这 些 示例 程序 还 演示 了 x86-AVX 编程 的 几 个 注意 事项 ， 包 括 操作 数 
对 齐 和 合理 使 用 vzeroupper 指令 。 

本 章 和 随后 章节 的 几 个 例子 都 会 使 用 一 个 名 为 YmmVal 的 C++ 联合 结构 ， 如 清单 14-1 
所 示 ， 它 用 来 在 C++ 和 汇编 语言 函数 间 传 递 数据 。 在 此 联合 体 中 声明 的 各 个 项 与 256 位 宽 
操作 数 的 组 合 数据 类 型 相对 应 。 联 合体 YmmVa 还 包含 若干 文本 字符 串 格式 化 函数 的 声明 。 
在 子 文件 夹 CommonFiles 中 包含 了 文件 YmmvVal.cpp(〈 源 代码 没有 列 出 )， 其 中 有 ToString - 

格式 化 函数 的 定义 。 


清单 14-1 YmmVal.h 


#pragma once 
#include "MiscDefs.h" 


union YmmVal 

( 
Int8 i8[32]; 
Int16 i16[16]; 
Int32 i32[8]; 
Int64 i64[4]; 
Uint8 u8[32]; 
Uint16 u16[16]; 
Uint32 u32[8]; 
Uint64 u64[4]; 
float r32[8]; 
double r64[4]; 


char* ToString i8(char* s, size t len, bool upper half); 

char* ToString_i16(char* s, size t len, bool upper half); 
char* ToString i32(char* s, size t len, bool upper half); 
char* ToString i64(char* s, size t len, bool upper half); 


char* ToString u8(char* s, size t len, bool upper half); 

char* ToString ui6(char* s, size t len, bool upper half); 
char* ToString u32(char* s, size t len, bool upper half); 
char* ToString u64(char* s, size t len, bool upper half); 
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char* ToString x8(char* s, size t len, bool upper half); 


char* ToString_x16(char* s, 
char* ToString x32(char* s, 
char* ToString x64(char* s, 


char* ToString r32(char* s, 


char* ToString r64(char* s, 


N 


14.1.1 合 浮 点 运算 


第 一 个 示例 程序 名 为 AvxPackedFloatingPointArithmetic， 演 示 了 如 何 对 256 位 宽 的 组 
合 浮 点 操作 数 执行 常见 的 算术 运算 ， 同 时 也 演示 了 如 何 正确 地 使 用 vzeroupper 指令 ， 以 防 
止 函数 使 用 YMM 寄存 器 时 产生 可 能 的 性 能 损失 。 清 单 14-2 和 清单 14-3 列 出 了 AvxPacked- 


size t len, 
size t len, 
size t len, 


size t len, 
size t len, 


bool 
bool 
bool 


bool 
bool 


upper half); 
upper half); 
upper half); 


upper half); 
upper half); 


FloatingPointArithmetic 程序 的 C++ 和 汇编 语言 源 代 码 。 


清单 14-2 AvxPackedFloatingPointArithmetic.cpp 





#include "stdafx.h" 
#include "YmmVal.h" 


extern "C" void AvxPfpArithmeticFloat (const YmmVal* a, const YmmVal* b, ~ 


YmmVal c[6]); 


extern "C" void AvxPfpArithmeticDouble (const YmmVal* a, const YmmVal* b, = 


YmmVal c[5]); 


void AvxPfpArithmeticFloat(void) 


{ 


. declspec(align(32)) YmmVal a; 
. declspec(align(32)) YmmVal b; 
. declspec(align(32)) YmmVal c[6]; 


AvxPfpArithmeticFloat (&a, &b, c); 


a.r32[0] = 2.0f; b.r32[0] = 12.5f; 
a.r32[1] = 3.5f; b.r32[1] = 52.125f; 
a.r32[2] = -10.75f;  b.r32[2] = 17.5f; 
a.r32[3] = 15.0f; b.r32[3] = 13.982f; 
a.r32[4] = -12.125f; b.r32[4] = -4.75f; 
a.r32[5] = 3.875f; b.r32[5] = 3.0625f; 
a.r32[6] = 2.0f; b.r32[6] - 7.875f; 
a.r32[7] = -6.35f; b.r32[7] = -48.1875f; 


printf("Results for AvxPfpArithmeticFloat()\n\n"); 


printf(" i a Add 
Abs Neg\n"); 
printf("----------------------------------------------------------- 


for (int i = 0; i < 8; i++) 


{ 


const char* fs = "X8.3f "; 


printf("Z2d ", i); 
printf(fs, a.r32[i]); 
printf(fs, b.r32[i]); 


Sub Mul 


printf(fs, c[0].r32[i]); 
printf(fs, c[1].r32[i]); 
printf(fs, c[2].r32[i]); 
printf(fs, c[3].r32[i]); 
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266 #14 = 


printf(fs, c[4].r32[i]); 
printf(fs, c[5].r32[i]); 
printf("\n"); 


379 } 
void AvxPfpArithmeticDouble(void) 
. declspec(align(32)) YmmVal a; 


. declspec(align(32)) YmmVal b; 
. declspec(align(32)) YmmVal c[5]; 


a.r64[0] = 12.0; b.r64[0] = 0.875; 
a.r64[1] = 13.5; b.r64[1] = -125.25; 
a.r64[2] = 18.75; b.r64[2] = 72.5; 
a.r64[3] = 5.0; b.r64[3] = -98.375; 


AvxPfpArithmeticDouble (8a, &b, c); 


printf("\n\nResults for AvxPfpArithmeticDouble()\n\n"); 


printf(" i a b Min Max Sqrta HorAdd HorSub\n"); 
printf("---------------------------------------------------------- Ant); 
for (int i = 0; i« 4; i++) 
{ 
const char* fs = "%9.31f "; 
printf("%2d ", i); 
printf(fs, a.r64[i]); 
printf(fs, b.r64[i]); 
printf(fs, c[0].r64[i]); 
printf(fs, c[1].r64[i]); 
printf(fs, c[2].r64[i]); 
printf(fs, c[3].r64[i]); 
printf(fs, c[4].r64[i]); 
printf("\n"); 
} 
} 
int _tmain(int argc, _TCHAR* argv[]) 
{ 
AvxPfpArithmeticFloat(); 
AvxPfpArithmeticDouble(); 
return 0; 
} 


380 


清单 14-3 AvxPackedFloatingPointArithmetic_.asm 


.model flat,c 
.const 
align 16 


; 组 合 单 精度 浮 点 数 绝对 值 的 掩 码 
AbsMask dword 7fffffffhy7fffffffhy7fffffffhy7fffffffh 
dword 7fffffffh,7fffffffh,7fffffffhy7fffffffh 


; 组 合 单 精度 浮 点 负数 的 掩 码 

NegMask dword 80000000h, 80000000h , 80000000h , 80000000h 
dword 80000000h, 80000000h , 80000000h ,80000000h 
.code 
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; extern "C" void AvxPfpArithmeticFloat (const YmmVal* a, const YmmVal* b, ~ 
YmmVal c[6]); 


; 描述 。 本 函数 演示 如 何 使 用 常用 的 组 合 单 精度 浮 点 运算 指令 (使 用 YM 寄存 器 ) 
; 需要 : AVX 
AvxPfpArithmeticFloat proc 

push ebp 


mov ebp,esp 


; 加 载 参 数值 。 注 意 vmovaps 指令 对 内 存 中 的 操作 数 有 相应 的 对 齐 要 求 


mov eax, [ebp+8] jeax = 指向 a 
mov ecx, [ebp+12] ;ecx = 指向 b 
mov edx, [ebp+16] jedx = 指向 c 
vmovaps ymmo,ymmword ptr [eax] ;ymmo = a 
vmovaps ymmi,ymmword ptr [ecx] ;ymmi = b 


; 执行 组 合 单 精度 浮 点 数 的 加 、 减 、 乘 、 除 运算 
vaddps ymm2,ymmo, ymm1 ;a+b 
vmovaps ymmword ptr [edx],ymm2 


vsubps ymm3,ymmO,ymmi ja -b 

vmovaps ymmword ptr [edx+32],ymm3 

vmulps ymm4,ymmO,ymmi gai * b 

vmovaps ymmword ptr [edx+64],ymm4 381 
vdivps ymm5,ymmO,ymmi ;a/b 


vmovaps ymmword ptr [edx+96],ymm5 


计算 组 合 单 精度 浮 点 数 的 绝对 值 


- 


vmovups ymm6,ymmword ptr [AbsMask] ;ymm6 = AbsMask 
vandps ymm7,ymmO, ymm6 ;ymm7 = 组合 绝对 值 (packed fabs) 
vmovaps ymmword ptr [edx+128],ymm7 
; 计算 组 合 单 精度 浮 点 数 的 负 值 
vxorps ymm7,ymmO,ymmword ptr [NegMask] ;ymm7 = 组合 负 值 (packed neg) 


vmovaps ymmword ptr [edx+160] ,ymm7 


; 对 YMM 寄存 器 的 高 128 位 清 零 ， 以 避免 x86-AVX 到 x86-SSE 潜在 的 转换 问题 


vzeroupper 


pop ebp 
ret 
AvxPfpArithmeticFloat  endp 


; extern "C" void AvxPfpArithmeticDouble (const YmmVal* a, const YmmVal* b, ~ 
YmmVal c[5]); 


; 描述 : 本 函数 演示 如 何 使 用 常用 的 组 合 双 精 度 浮 点 运算 指令 (使 用 YMM 寄存 器 ) 
; 需要 : AVX 
AvxPfpArithmeticDouble proc 

push ebp 


mov ebp,esp 


; 加 载 参数 值 。 注 意 vmovaps 指令 对 内 存 中 的 操作 数 有 相应 的 对 齐 要 求 


mov eax, [ebp+8] ;eax = 指向 a 
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mov ecx, [ebp+12] ;ecx = 指向 b 
mov edx, [ebp+16] ;edx = 指向 c 
vmovapd ymmO,ymmword ptr [eax] ;ymm0 = a 
vmovapd ymmi,ymmword ptr [ecx] ;ymmi = b 


; 计算 最 小 值 、 最 大 值 和 平方 根 
vminpd ymm2,ymmO,ymm1 
vmaxpd ymm3,ymmO, ymm1 
vsqrtpd ymm4, ymmo 


; 进行 水 平 加 减 运算 
vhaddpd ymm5, ymmo, ymm1 
vhsubpd ymm6,ymmo, ymm1 


; 保存 结果 
vmovapd ymmword ptr [edx],ymm2 
vmovapd ymmword ptr [edx+32],ymm3 
vmovapd ymmword ptr [edx464],ymm4 
vmovapd ymmword ptr [edx+96],ymm5 
vmovapd ymmword ptr [edx+128], ymm6 


; 对 YMM 寄存 器 的 高 128 位 清 零 ， 以 避免 x86-AVX 到 x86-SSE 潜在 的 转换 问题 


vzeroupper 


pop ebp 

ret 
AvxPfpArithmeticDouble endp 

end 


AvxPackedFloatingPointArithmetic 的 C++ 代码 ( 见 清单 14-2 ) 中 包含 一 个 函数 AvxPfp- 
ArithmeticFloat， 其 开始 部 分 使 用 单 精 度 浮 点 测试 值 初始 化 了 若干 YmmVal 变量 。 注 意 ， 每 
4 YmmVal 实例 都 使 用 了 Visual C++ 扩展 属性 declspec(align(32)) 进行 32 FMF. PRI 
数 AvxPfpArithmeticFloat 调用 了 x86-AVX 汇编 语言 函数 AvxPfpArithmeticFloat ,后 者 用 来 
演示 常用 的 组 合 单 精度 浮 点 运算 。 使 用 一 系列 的 printf 语句 ， 以 阵列 的 方式 打印 出 计算 的 结 
R, Æ C++ 代码 中 还 有 一 个 AvxPfpArithmeticDouble 函数 ， 用 来 演示 组 合 双 精度 浮 点 数 运 
算 ， 其 逻辑 组 织 类 似 于 组 合 单 精度 浮 点 运算 。 

清单 14-3 列 出 了 示例 程序 AvxPackedFloatingPointArithmetic 的 x86-AVX 汇编 代码 。 
在 其 顶部 的 const 区 定义 了 32 字 节 宽 的 组 合 掩 码 AbsMask， 用 来 计算 组 合 单 精度 浮 点 数 
的 绝对 值 。 第 二 个 组 合 掩 码 是 NegMask， 用 来 计算 单 精度 浮 点 数 的 负 值 。 需 要 注意 的 是 ， 
在 .const X, align 指示 的 参数 值 不 能 超过 16。 这 意味 着 AbsMask 和 NegMask 可 能 不 能 正 
确 对 齐 。 由 于 x86-AVX 宽泛 的 对 齐 要 求 ( 见 第 12 章 )， 大 多 数 x86-AVX 指令 引用 这 些 值 时 
不 会 触发 处 理 器 异常 。 另 一 种 选择 是 使 用 MASM 段 指令 来 定义 一 个 常量 区 域 ， 允 许 数据 32 
字 节 对 齐 。 这 种 方法 将 在 第 15 章 介 绍 。 

继 序言 和 参数 寄存 器 初始 化 之 后 ， 指 令 vmovaps ymm0, ymmword ptr [eax] 加 载 组 
合 值 a 到 寄存 器 YMM0。vmovaps 指令 要 求 基于 内 存 的 源 操 作 数 正确 对 齐 。 然 后 ， 指 
令 vmovaps ymml,ymmword ptr [ecx] 把 组 合 值 b 加 载 到 寄存 器 YMM1。 接 下 来 的 指令 
vaddps ymm2,ymm0,ymml 将 YMMO 和 YMM1 中 的 组 合 单 精度 数 进行 相 加 ， 并 将 结果 存 人 
YMM2。 函 数 接着 分 别 使 用 指令 vsubps, vmulps 和 vdivps 执行 组 合 单 精度 浮 点 数 的 减法 、 
乘法 和 除法 。 
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随后 的 两 条 指令 vmovups ymm6,ymmword ptr [AbsMask] 和 vandps ymm7,ymm0,ymm6 
计算 a 的 组 合 绝 对 值 。 注 意 不 能 用 vmovaps 指令 来 加 载 AbsMask 到 YMM 寄存 器 ， 因 为 此 
掩 码 值 没 有 正确 对 齐 。 指 令 vxorps ymm7,ymm0,ymmword ptr [NegMask] 计算 元 素 a 的 负 值 ， 
这 也 体现 了 x86-AVX 宽泛 的 内 存 对 齐 要 求 ， 因 为 NegMask 并 没有 明确 对 齐 到 32 字 节 边界 。 
函数 结语 前 的 最 后 指令 是 vzeroupper， 这 是 为 了 预防 x86 处 理 器 从 执行 x86-AVX 指令 过 渡 
到 执行 x86-SSE 指令 时 触发 潜在 的 性 能 损失 。 第 12 章 中 讨论 e 

PK% AvxPfpArithmeticDouble ( 见 清 单 14-3 ) 演示 了 若干 其 他 组 合 浮 点 运算 操作 ， 使 
用 的 是 双 精 度 浮 点 数 ， 而 不 是 单 精度 浮 点 数 。 指 令 vminpd、vmaxpd x uis 分 别 计算 
组 合 双 精 度 最 小 值 、 最 大 值 和 平方 根 。 水 平 ( 相 邻 元 素 ) 加 减 运 算 使 用 了 指令 vhaddpd 和 
vhsubpd( 见 图 7-8 )。 这 些 操作 的 结果 被 调用 者 使 用 一 系列 vmovapd 指令 保存 到 指定 的 数组 
中 。AvxPfpArithmeticDouble_ 函数 的 结语 前 使 用 的 最 后 一 条 指令 是 vzeroupper。 需 要 重申 
的 是 ， 当 函数 使 用 YMM 寄存 器 时 ， 为 了 防止 处 理 器 状态 转换 延 退 ， 都 应 该 使 用 这 条 指令 
(在 任何 ret 指令 之 前 )。 第 12 章 中 包含 heir pn n Vzeroupper 指令 的 信息 。 输 
出 14-1 显示 了 示例 程序 AvxPackedFloatingPointArithmetic 的 运行 结果 。 


输出 14-1 示例 程序 AvxPackedFloatingPointArithmetic 
Results for AvxPfpArithmeticFloat() 





0 2.000 12.500 14.500 -10.500 25.000 0.160 2.000 -2.000 
1 3.500 52.125 55.625 -48.625 182.438 0.067 3.500 -3.500 
2 -10.750 17.500 6.750 -28.250 -188.125 -0.614 10.750 10.750 
3 15.000 13.982 28.982 1.018 209.730 1.073 15.000 -15.000 
4 -12.125 -4.750 -16.875 -7.375 57.594 2553 12.125 12.125 
5 3.875 3.063 6.938 0.813 11.867 1.265 3.875 -3.875 
6 2.000 7.875 9.875 -5.875 15.750 0.254 2.000 -2.000 
7 -6.350 -48.188 -54.537 41.838 305.991 0.132 6.350 6.350 


Results for AvxPfpArithmeticDouble() 


i a b Min Max Sqrt a HorAdd HorSub 


0 12.000 0.875 0.875 12.000 3.464 25.500 -1.500 
1 13.500 -125.250 -125.250 13.500 3.674 -124.375 126.125 
2 18.750 72.500 18.750 72.500 4.330 23.750 13.750 
3 5.000 -98.375 -98.375 5.000 2.236 -25.875 170.875 


14.1.2 合 浮 点 比较 


第 13 章 中 ， 我 们 学 习 了 如 何 使 用 vempsd 指令 对 两 个 标量 双 精 度 浮 点 数 进行 比较 。 本 
节 中 ， 我 们 将 学 习 使 用 vemppd 指令 对 两 个 组 合 双 精度 浮 点 数 进行 比较 。 该 指令 对 成 对 的 
两 个 源 操 作 数 进行 比较 ， 然 后 设置 相应 的 目标 操作 数 来 显示 比较 结果 (全 1 为 真 ， 全 0 为 
假 )。 示 例 程序 AvxPackedFloatingPointCompare 的 C++ 和 汇编 语言 源 代码 分 别 见 清单 14-4 和 
清单 14-5。 


清单 14-4 AvxPackedFloatingPointCompare.cpp 


#include "stdafx.h" 
#include "YmmVal.h" 
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#include «limits» 
using namespace std; 


extern "C" void AvxPfpCompare (const YmmVal* a, const YmmVal* b, YmmVal c[8]); 


int tmain(int argc, _TCHAR* argv[]) 


{ 


char buff[256]; 


. declspec(align(32)) YmmVal a; 


. declspec(align(32)) YmmVal b; 
. declspec(align(32)) YmmVal c[8]; 


const char* instr names[8] - 


{ 
"vcmpeqpd", "vcmpneqpd", "vcmpltpd", "vcmplepd", 
"vcmpgtpd", "vcmpgepd", "vcmpordpd", "vcmpunordpd" 


, 


a.r64[0] = 42.125; 


a.r64[1] = -36.875; 

a.r64[2] = 22.95; 

a.r64[3] = 3.75; 

b.r64[0] = -0.0625; 

b.r64[1] = -67.375; 

b.r64[2] = 22.95; 

b.r64[3] = numeric limits«double»::quiet NaN(); 


AvxPfpCompare (8a, &b, c); 


printf("Results for AvxPackedFloatingPointCompare Wn"); 
printf("a: %s\n", a.ToString r64(buff, sizeof(buff), false)); 
printf("a: %s\n", a.ToString r64(buff, sizeof(buff), true)); 
printf("\n"); 

printf("b: %s\n", b.ToString r64(buff, sizeof(buff), false)); 
printf("b: %s\n", b.ToString r64(buff, sizeof(buff), true)); 


for (int i = 0; i < 8; i++) 


{ 
printf("\n%s results\n", instr names[i]); 
printf(" %s\n", c[i].ToString x64(buff, sizeof(buff), false)); 
printf(" %s\n", c[i].ToString x64(buff, sizeof(buff), true)); 
} 
return 0; 


清单 14-5 AvxPackedFloatingPointCompare_.asm 


.model flat,c 
.Code 


; extern "C" void AvxPfpCompare (const YmmVal* a, const YmmVal* b, YmmVal c[8]); 


; 描述 。 本 函数 演示 x86-AVX 比较 指令 vemppd 的 使 用 方法 


BE: AVX 


AvxPfpCompare_ proc 


push ebp 
mov ebp,esp 


: 加 载 参 数值 
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mov eax, [ebp+8] ;eax = 指向 a 
mov ecx, [ebp+12] ;ecx = 指向 b 
mov edx, [ebp+16] ;edx = 指向 c 
vmovapd ymmo,ymmword ptr [eax] ;ymmo = a 
vmovapd ymmi,ymmword ptr [ecx] ;ymm1 = b 

; 相等 比较 


vcmpeqpd ymm2,ymmO, ymm1 
vmovapd ymmword ptr [edx],ymm2 


; 不 等 比较 
vcmpneqpd ymm2, ymmo, ymm1 
vmovapd ymmword ptr [edx«32],ymm2 


; 小 于 比较 
vcmpltpd ymm2,ymmo,ymmi 
vmovapd ymmword ptr [edx«64],ymm2 


; 小 于 等 于 比较 
vcmplepd ymm2, ymmo ,ymm1i 
vmovapd ymmword ptr [edx«96],ymm2 


; 大 于 比较 
vcmpgtpd ymm2,ymmo,ymmi 
vmovapd ymmword ptr [edx4128],ymm2 


; 大 于 等 于 比较 
vcmpgepd ymm2,ymmO,ymmi 
vmovapd ymmword ptr [edx+160] ,ymm2 


; 有 序 比 较 
vcmpordpd ymm2, ymmo, ymm1 


vmovapd ymmword ptr [edx«192],ymm2 


; 无 序 比较 
vcmpunordpd ymm2,ymmo,ymmi 
vmovapd ymmword ptr [edx+224], ymm2 


; 对 YMM 寄存 器 的 高 128 位 清 零 ， 以 避免 x86-AVX 到 x86-SSE 潜在 的 转换 问题 
vzeroupper 
pop ebp 
ret 
AvxPfpCompare endp 
end 


AvxPackedFloatingPointCompare.cpp 〈( 见 清单 14-4) fH tmain 函数 使 用 C++ 联合 结 
TJ Ymm Val 初始 化 两 个 组 合 双 精 度 浮 点 数 供 测试 使 用 。 注 意 ， 最 后 一 个 元 素 b 被 设置 为 
QNaN， 这 是 为 了 进行 无 序 浮 点 比较 。_tmain 中 剩余 的 代码 调用 了 汇编 语言 函数 AvxPfp- 
Compare， 并 且 把 执行 结果 打印 出 来 。 其 中 的 printf 语句 把 每 个 组 合 双 精度 比较 的 结果 以 掩 码 
形式 显示 在 屏幕 上 。 

清单 14-5 包含 了 汇编 语言 函数 AvxPfpCompare_ 。 该 函数 使 用 vmovapd 指令 把 参数 a 
和 分别 加 载 到 寄存 器 YMMO 和 YMM1， 然 后 使 用 指令 vcmppd 的 常用 形式 执行 比较 ， 并 
把 每 个 比较 结果 的 掩 码 存储 到 指定 数组 中 。 注 意 ， 在 函数 结语 前 仍旧 使 用 了 vzeroupper 指 
令 ， 以 避免 x86-AVX 到 x86-SSE 状态 转换 中 的 性 能 损失 。 

与 其 标量 版 本 类 似 ， 指 令 vemppd 支持 两 种 格式 : 四 操作 数 格式 使 用 一 个 立即 数 来 指 
定 比较 谓词 ; 三 操作 数 形式 的 比较 谓词 在 其 助 记 符 的 字符 串 中 表现 ， 比 如 vempeqpd 表示 
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进行 相等 比较 。 和 vempsd 指令 一 样 ，vcmppd 也 支持 同样 的 32 种 比较 谓词 。 在 函数 中 操作 
单 精度 浮 点 量 的 时 候 ， 指 令 vcmpps 也 可 以 用 来 执行 比较 操作 。 输 出 14-2 显示 了 示例 程序 
AvxPackedFloatingPointCompare 的 运行 结果 。 


输出 14-2 示例 程序 AvxPackedFloatingPointCompare 
Results for AvxPackedFloatingPointCompare 


a: 42.125000000000 | -36.875000000000 
at 22.950000000000 | 3.750000000000 
b: -0.062500000000 | -67.375000000000 
b: 22.950000000000 | 1.#0NANOO00000 


vcmpeqpd results 
0000000000000000 | 0000000000000000 
FFFFFFFFFFFFFFFF | 0000000000000000 


vcmpneqpd results 
FFFFFFFFFFFFFFFF | FFFFFFFFFFFFFFFF 
0000000000000000 | FFFFFFFFFFFFFFFF 


vcmpltpd results 
0000000000000000 | 0000000000000000 
0000000000000000 | 0000000000000000 


vcmplepd results 
0000000000000000 | 0000000000000000 
FFFFFFFFFFFFFFFF | 0000000000000000 


vcmpgtpd results 
FFFFFFFFFFFFFFFF | FFFFFFFFFFFFFFFF 


0000000000000000 | 0000000000000000 
vcmpgepd results 
FFFFFFFFFFFFFFFF | FFFFFFFFFFFFFFFF 


FFFFFFFFFFFFFFFF | 0000000000000000 


vcmpordpd results 
FFFFFFFFFFFFFFFF | FFFFFFFFFFFFFFFF 
FFFFFFFFFFFFFFFF | 0000000000000000 


vcmpunordpd results 
0000000000000000 | 0000000000000000 
0000000000000000 | FFFFFFFFFFFFFFFF 





14.2 ”高 级 编程 


本 节 的 几 个 示例 程序 用 来 演示 如 何 对 组 合 双 精度 浮 点 操作 数 进行 x86-AVX 高 级 编程 。 
第 一 个 示例 程序 演示 如 何 使 用 x86-AVX 指令 集 计算 相关 系数 ( correlation coefficient)， 第 二 
个 示例 程序 计算 双 精 度 浮 点 数 矩 阵 的 列 均值 。 这 些 例子 使 用 的 方法 可 以 应 用 到 处 理 单 精度 或 
双 精 度 浮 点 数组 和 和 矩阵 的 类 似 程序 中 。 


14.2.1 相关 系数 


接 下 来 的 示例 程序 名 为 AvxPackedFloatingPointCorrCoef， 演 示 了 使 用 x86-AVX 的 组 合 
浮 点 功能 来 计算 统计 学 中 的 相关 系数 。 同 时 演示 了 对 组 合 浮 点 数 做 各 种 常见 操作 ， 包 括 提 
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取 和 组 合 水 平 加 法 。 清 单 14-6 和 清单 14-7 分 别 列 出 了 AvxPackedFloatingPointCorrCoef 的 
C++ 和 汇编 语言 源 代 码 。 


清单 14-6 AvxPackedFloatingPointCorrCoef.cpp 


#include "stdafx.h" 
#include «math.h» 
#include <stdlib.h> 


extern "C"  declspec(align(32)) double CcEpsilon = 1.0e-12; 
extern "C" bool AvxPfpCorrCoef (const double* x, const double* y, int n,= 
double sums[5], double* rho); 


bool AvxPfpCorrCoefCpp(const double* x, const double* y, int n, double~ 
sums[5], double* rho) 


double sum x = 0, sum y = 0; 
double sum xx = 0, sum yy = 0, sum xy = 0; 389 


// 确保 x 和 yy 正确 地 对 齐 到 32 字 节 边界 

if (((uintptr t)x & Oox1f) !- 0) 
return false; 

if (((uintptr t)y & oxif) !- 0) 
return false; 


// 确保 n 是 有 效 的 
if ((n < 4) || ((n & 3) != 0)) 


return false; 


// 计算 、 保 存 和 变量 
for (int i = 0; i < n; i++) 
{ 
sum x += x[i]; 
sum y += y[i]; 
sum xx += x[i] * x[i]; 
sum yy += y[i] * y[i]; 
sum xy += x[i] * y[i]; 


} 


sums [0 
sums[1 


] 
] 
sums[2] 
] 
] 


sum x; 
sum y; 

sum xx; 
sum yy; 
sum xy; 


sums[3 
sums[4 


' d dw wh it 


// 计算 rho 

double rho num = n * sum xy - sum x * sum y; 

double rho den = sqrt(n * sum xx - sum x * sum x) * sqrt(n * sum yy -~ 
sum y * sum y); 


if (rho den »- CcEpsilon) 


*rho - rho num / rho den; 
return true; 


} 
else 
{ 
*rho = 0; 
return false; 
} 
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int tmain(int argc, TCHAR* argv[]) 
( 
const int n = 100; 
. declspec(align(32)) double x[n]; 
390 . declspec(align(32)) double y[n]; 
double sums1[5], sums2[5]; 
double rho1, rho2; 


srand(17); 
for (int i = 0; i < n; i++) 
{ 
x[i] = rand(); 
y[i] = x[i] + ((rand() X 6000) - 3000); 
} 
bool rci = AvxPfpCorrCoefCpp(x, y, n, sumsi, &rho1); 
bool rc2 - AvxPfpCorrCoef (x, y, n, sums2, &rho2); 


printf("Results for AvxPackedFloatingPointCorrCoef\n\n") ; 
if (!rci || !rc2) 


printf("Invalid return code (rci: Xd, rc2: %d)\n", rci, rc2); 
return 1; 


) 


printf("rhoi: %.81f rho2: %.81f\n", rhoi, rho2); 
printf(" n"); 

printf("sum x: %12.01f %12.01f\n", sumsi[0], sums2[0]); 
printf("sum y: %12.01f %12.01f\n", sumsi[1], sums2[1]); 
printf("sum xx: 412.01f %12.01f\n", sumsi[2], sums2[2]); 
printf("sum yy: %12.01f %12.01f\n", sumsi1[3], sums2[3]); 
printf("sum xy: %12.01f %12.01f\n", sumsi[4], sums2[4]); 
return 0; 


清单 14-7 AvxPackedFloatingPointCorrCoef_.asm 


.model flat,c 
.code 
extern CcEpsilon:real8 


; extern "C" bool AvxPfpCorrCoef (const double* x, const double* y, int n, ~ 
double sums[5], double* rho); 


; 描述 。 本 函数 计算 给 定 x 和 y 数组 的 相关 系数 
; 需要 : AVX 


AvxPfpCorrCoef proc 
push ebp 
391 mov ebp,esp 


; 加 载 并 验证 参数 值 
mov eax, [ebp+8] ;eax = 指向 x 
test eax,1fh 
jnz BadArg ;如 果 x 没有 对 齐 则 跳 转 
mov edx, [ebp+12] jedx = 指向 y 
test edx,1fh 
jnz BadArg 如果 y 没有 对 齐 则 跳 转 
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mov ecx,|ebp+16 | 
cmp ecx,4 

jl BadArg 

test ecx,3 

jnz BadArg 

shr ecx,2 


始 化 和 变量 为 0 
vxorpd ymm3,ymm3,ymm3 
vmovapd ymm4, ymm3 
vmovapd ymm5 , ymm3 
vmovapd ymm6 , ymm3 
vmovapd ymm7 , ymm3 


; 计算 中 间 组 合 和 变量 
QQ: vmovapd ymmo,ymmword ptr [eax] 
vmovapd ymmi,ymmword ptr [edx] 


vaddpd ymm3,ymm3, ymmo 
vaddpd ymm4, ymm4, ymm1 


vmulpd ymm2,ymmo,ymm1 
vaddpd ymm7, ymm7 , ymm2 


vmulpd ymmo, ymmo, ymmo 
vmulpd ymm1,ymm1, ymm1 
vaddpd ymm5 , ymm5 , ymmo 
vaddpd ymm6 , ymm6 , ymm1 


add eax,32 
add edx,32 
dec ecx 
jnz GB 


; 计算 最 后 的 和 变量 
vextractf128 xmmo,ymm3,1 
vaddpd xmm1,xmmo,xmm3 
vhaddpd xmm3,xmm1, xmm1 


vextractf128 xmmo,ymm4,1 
vaddpd xmm1,xmmo, xmm4 
vhaddpd xmm4, xmm1, xmm1 


vextractf128 xmmo,ymms5,1 
vaddpd xmmi,xmmo,xmm5 
vhaddpd xmm5, xmm1, xmm1 


vextractf128 xmmo,ymm6,1 
vaddpd xmmi,xmmo, xmm6 
vhaddpd xmm6,xmm1, xmm1 


vextractf128 xmmO,ymm7,1 
vaddpd xmm1,xmmO, xmm7 
vhaddpd xmm7, xmm1, xmm1 


; 保存 最 后 的 和 变量 
mov eax, [ebp+20] 
vmovsd real8 ptr [eax],xmm3 
vmovsd real8 ptr [eax+8] ,xmm4 
vmovsd real8 ptr [eax+16],xmm5 
vmovsd real8 ptr [eax+24] ,xmm6 
vmovsd real8 ptr [eax+32],xmm7 
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;ecx =n 


;如 果 n < 4 则 跳 转 
;n 能 被 4 整除 吗 ? 
;不 能 则 跳 转 

;ecx = 循环 数 


;ymm3 = 组 合 sum_x 
;ymm4 = 组 会 Sum_y 
;ymm5 = 组 合 sum xx 
;ymm6 = 484 sum yy 
;ymm7 = 组 合 sum xy 


;ymm0 = 组 合 x 值 
;ymm1 = 组 合 y 值 


;更 新 组 合 sum_x 
;更 新 组 合 sum_y 


;ymm2 = 组 合 xy 值 
;更 新 组 合 sum_xy 


;ymm0 = 284 xx 值 
;ymm1 = 484 yy 值 
;更 新 组 合 sum_xx 
;更 新 组 合 sum_yy 


;更 新 x 指针 

;更 新 y 指针 

;更 新 循环 计数 

;如 果 没 有 完成 ， 重 复 上 述 过 程 


;xmm3[63:0] = sum x 
;xmm4[63:0] = sum y 
;xmm5[63:0] = sum xx 


;xmm6[63:0] = sum yy 


;xmm7[63:0] = sum xy 


;eax = 指向 sums 数组 
;保存 sum x 

;保存 sum y 

;保存 sum xx 

;保存 sum yy 

;保存 sum xy 
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; 计算 rho 分 子 

; rho num = n * sum xy - sum x * sum y; 
vcvtsi2sd xmm2,xmm2,dword ptr [ebp+16] 
vmulsd xmmo,xmm2,xmm7 
vmulsd xmm1, xmm3 , xmm4 





;xmm2 = n 
;xmmO= = n * sum xy 
;xmmi = sum x * sum y 


vsubsd xmm7,xmmO, xmm1 ;xmm7 = rho num 
; 计算 rho 8 
; t1 = sqrt(n * sum xx - sum x * sum x) 
; t2 = sqrt(n * sum yy - sum y * sum y) 
; rho den = t1 * t2 
vmulsd xmmO,xmm2,xmm5 ;xmmo = n * sum xx 
vmulsd xmm3,xmm3,xmm3 ;xmm3 - sum x * sum x 
vsubsd xmm3,xmmo, xmm3 ;xmm3 - n * sum xx - sum x * sum x 
vsqrtsd xmm3,xmm3,xmm3 ;xmm3 - t1 
vmulsd xmmo,xmm2,xmm6 ;xmmO = n * sum yy 
vmulsd xmm4,xmm4, xmm4 ;xmm4 = sum y * sum y 
vsubsd xmm4,xmmo,xmm4. ;xmm4 - n * sum yy - sum y * sum y 
vsqrtsd xmm4,xmm4, xmm4 ;xmm4 - t2 


vmulsd xmmoO,xmm3,xmm4 


> 计算 最 后 的 rho f& 
XOI eax,eax 
vcomisd xmmo, [CcEpsilon] 


;xmmo = rho den 


jeax 的 高 位 清 零 
jis rho den « CcEpsilon? 


setae al ;设置 返回 码 
jb BadRho ;如 果 rho_den < CcEpsilon 则 跳 转 
vdivsd xmm1,xmm7,xmmO ;xmm1 = rho 

SvRho: mov edx, [ebp+24] ;eax = 指向 rho 
vmovsd real8 ptr [edx],xmmi ;保存 rho 
vzeroupper 

Done: pop ebp 
ret 

; 错误 处 理 

BadRho: vxorpd xmm1,xmm1,xmm1 ;rho = 0 
jmp SvRho 

BadArg: xor eax,eax jeax = 无 效 参数 返回 码 
jmp Done 


AvxPfpCorrCoef_ endp 
end 


相关 系数 反映 两 组 数据 集合 或 者 变量 之 间 线 性 相关 的 程度 。 相 关系 数 的 取 值 范围 在 -1 
到 +1 之 间 ,+1 和 -1 分别 表示 变量 间 完 美 负 线性 相关 和 完美 正 线 性 相关 ， 现 实 世 界 中 的 
相关 系数 不 大 可 能 等 于 这 两 个 值 。 相 关系 数 为 0 表示 数据 集 不 是 线性 相关 的 。 示 例 程序 
AvxPackedFloatingPointCorrCoef 使 用 下 面 的 公式 计算 相关 系数 : 


n 》 xy, 5 


> Xi 2, Yi 








VE 


从 公式 中 可 以 看 出 ， 程 序 在 计算 相关 系数 的 过 程 中 必须 计算 如 下 五 个 和 变量 : 


sum x 三 


Y s; Sunt yz X^ 
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sum xx = Yx sum yy = bx sum xy — 3 xi; 


清单 14-6 展示 了 一 种 相关 系数 的 C++ 实现 算法 ,函数 AvxPfpCorrCoefCpp 计算 数据 数 
组 x 和 y 之 间 的 相关 系数 。 注 意 这 些 数组 必须 按 32 字 节 边界 对 齐 ， 另 外 要 注意 的 是 ， 数 组 
元 素 总 数 n 必须 可 以 整除 4。 这 些 限制 是 为 了 便于 x86-AVX 汇编 语言 函数 进行 256 位 宽 的 
组 合算 术 运 算 。AvxPfpCorrCoefCpp 循环 扫 过 数据 数组 ， 计 算 所 需 的 和 变量 。 把 这 些 值 保存 
到 sums 数组 ， 同 时 计算 中 间 值 tho_ num 和 rho_den。 在 计算 rho ARAIZ B, KAAH 
证 rho den 是 否 大 于 等 于 CcEpsilon。 

紧 跟 其 序言 之 后 ， 汇 编 语言 函数 AvxPfpCorrCoef_ ( 见 清单 14-7 ) 进行 必要 的 数组 对 
齐 及 大 小 验证 。 然 后 分 别 使 用 寄存 器 YMM3 到 YMM7 初始 化 组 合 版 本 的 sum x, sum y. 
sum xx, sum yy 和 sum_xy 为 0。 在 函数 主 循环 的 每 次 迭代 中 ， 从 数组 x 和 y 中 取出 相应 
的 值 使 用 双 精 度 浮 点 运算 更 新 上 述 四 个 和 变量 。 

完成 主 循环 后 ， 函 数 必须 减少 组 合 和 变量 的 宽度 ， 得 到 一 个 最 终结 果 。 指 令 
vextractf128 (提取 组 合 浮 点 值 ) 把 每 个 256 位 宽 组 合 和 变量 的 高 128 位 拷贝 到 XMM 寄存 
器 。 接 着 函数 使 用 vaddpd 和 vhaddpd 指令 计算 每 个 和 变量 的 最 终 值 。 图 14-1 描述 了 对 变量 
sum x 采用 这 种 处 理 方法 的 过 程 。 最 终 的 和 变量 存储 到 sums 数组 中 ， 为 C++ 算法 实现 中 的 
比较 做 好 准备 。 


初始 化 sum_x 的 组 合 值 


1298.0 3625.0 1710.0 2030.0 ymm3 


vextractf128 xmm0,ymm3,1 


1298.0 36250 | ymmo 


vaddpd xmm1,xmm0,xmm3 


[m T ms 


vhaddpd xmm3,xmm1,xmm1 


a yom 


图 14-1 使 用 vextractf128, vaddpd 和 vhaddpd 计算 最 终 的 sum x 


而 后 使 用 普通 的 x86-AVX 标量 双 精 度 浮 点 运算 计算 出 rho 的 值 。 注 意 指令 vcvtsi2sd 
xmm2,xmm2,dword ptr [ebp+16] 需要 两 个 源 操作 数 ， 第 二 个 源 操作 数 指定 的 有 符号 双 字 
整 型 数 被 转换 为 双 精 度 浮 点 数 。 该 指令 也 使 得 des[127:64] = src1[127:64] ( 即 目 标 操作 
数 [127:64]= 第 一 个 源 操作 数 [127:64])。 另 外 ， 也 要 注意 到 在 计算 rho 的 最 终 值 前 ， 函 数 
AvxPfpCorrCoef 使 用 了 指令 vcomisd 来 确定 rho den 大 于 等 于 CcEpsilon, MAAR AAI 
用 了 vzeroupper 指令 。 示 例 程序 AvxPackedFloatingPointCorrCoef 的 执行 结果 见 输出 14-3。 


输出 14-3 ”示例 程序 AvxPackedFloatingPointCorrCoef 
Results for AvxPackedFloatingPointCorrCoef 


rhoi: 0.98083554 rho2: 0.98083554 


sum x: 1549166 1549166 
sum y: 1537789 1537789 
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sum xx: 32934744842 32934744842 
sum yy: 32471286601 32471286601 
sum Xy: 32532024390 32532024390 





14.2.2 ”和 矩阵 列 均值 


本 章 的 最 后 一 个 示例 程序 名 叫 AvxPackedFloatingPointColMeans， 使 用 x86-AVX 指令 
集 对 给 定 的 双 精 度 浮 点 数 矩 阵 计算 每 列 的 算术 平均 值 。 程 序 的 C++ 和 汇编 语言 源 代码 分 别 
列 在 清单 14-8 和 清单 14-9 中 。 


清单 14-8 AvxPackedFloatingPointColMeans.cpp 


#include "stdafx.h" 
#include «memory.h» 
#include <stdlib.h> 


extern "C" bool AvxPfpColMeans (const double* x, int nrows, int ncols,= 
double* col means); 


bool AvxPfpColMeansCpp(const double* x, int nrows, int ncols, double*e 
col means) 


{ 
// 确保 nrows Fl ncols 有 效 


if ((nrows <= 0) || (ncols <= 0)) 
return false; 


// 确保 col means 正确 对 齐 
if (((uintptr t)col means & Ox1f) != 0) 
return false; 


// 计算 列 均值 


memset(col means, 0, ncols * sizeof(double)); 


for (int i = 0; i « nrows; i++) 
( 
for (int j = 0; j « ncols; j++) 
col means[j] += x[i * ncols + j]; 


) 


for (int j = 0; j « ncols; j++) 
col means[j] /- nrows; 


return true; 


int tmain(int argc, TCHAR* argv[]) 


const int nrows - 13; 

const int ncols - 11; 

double* x - (double*)malloc(nrows * ncols * sizeof(double)); 

double* col meansi - (double*) aligned malloc(ncols * sizeof(double), 32); 
double* col means2 - (double*) aligned malloc(ncols * sizeof(double), 32); 


srand(47); 
rand(); 


for (int i = 0; i < nrows; i++) 
{ 


for (int j = 0; j < ncols; j++) 


x86-AVX AGF E MAE 279 


x[i * ncols + j] = rand() X 511; 


) 
bool rci = AvxPfpColMeansCpp(x, nrows, ncols, col means1); 
bool rc2 - AvxPfpColMeans (x, nrows, ncols, col means2); 


printf("Results for sample program AvxPackedFloatingPointColMeans n"); 
if (rci !- rc2) 


printf("Bad return code (rci = Xd, rc2 = Xd)Wn", rci, rc2); 
return 1; 


) 


printf("\nTest Matrix\n"); 
for (int i = 0; i < nrows; i++) 
( 
printf("row %2d: ", i); 
for (int j = 0; j « ncols; j++) 
printf("X5.01f ", x[i * ncols + j]); 
printf("\n"); 


} 
printf("\n"); 
for (int j = 0; j < ncols; j++) 


printf("col meansi[X2d]: %12.41f ^", j, col means1[j]); 
printf("col means2[X2d]: %12.41f ^", j, col means2[j]); 
printf("\n"); 

} 


free(x); 

.aligned free(col means1); 
aligned free(col means2); 
return 0; 


清单 14-9  AvxPackedFloatingPointColMeans .asm 


.model flat,c 
.code 


; extern "C" bool AvxPfpColMeans (const double* x, int nrows, int ncols,= 
double* col means) 


; 描述 。 本 函数 计算 双 精度 浮 点 矩阵 的 每 列 数值 的 均值 
; 需要 : AVX 


AvxPfpColMeans_ proc 
push ebp 
mov ebp,esp 
push ebx 
push esi 
push edi 


; 加 载 并 验证 参数 


mov esi, [ebp+8] jesi = 指向 x 


XOT eax,eax 
mov edx, [ebp+12] ;edx = nrows 
test edx,edx 
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jle BadArg 


mov ecx, [ebp+16] 
test ecx,ecx 
jle BadArg 


mov edi, [ebp+20] 
test edi,1fh 
jnz BadArg 


; 将 col means 清 零 


mov ebx,ecx 
shl ecx,1 
rep stosd 


; 计算 x 中 每 列 的 和 


LPs 


LP2: 


mov edi, [ebp+20] 
XOT ecx,ecx 


mov eax,ecx 
add eax,4 
cmp eax,ebx 


jg er 


; 使 用 接 下 来 的 4 列 数据 更 新 col means 


vmovupd ymmo,ymmword ptr [esi] 
vaddpd ymmi,ymmo,ymmword ptr [edi] 
vmovapd ymmword ptr [edi],ymmi 
add ecx,4 

add esi,32 

add edi,32 

jmp NextColSet 


sub eax,2 
cmp eax,ebx 
jg @F 


; 使 用 接 下 来 的 2 列 数据 更 新 col means 


vmovupd xmmO,xmmword ptr [esi] 
vaddpd xmm1,xmmO,xmmword ptr [edi] 
vmovapd xmmword ptr [edi],xmmi 
add ecx,2 

add esi,16 

add edi,16 

jmp NextColset 


;如 果 nrows <= 0， 跳 转 
;ecx = ncols 

;如 果 ncols <= 0， 跳 转 
jedi = 指向 col means 


;如 果 col means 没有 对 齐 ， 跳 转 


;ebx = ncols 
jecx = col means 中 双 字 个 数 
;将 col means 清 零 


jedi = 指向 col means 
3ecx = col index 


;eax = col index 


;还 有 4 列 或 者 更 多 列 ? 
;如 果 col index + 4 > ncols， 跳 转 


;加 载 当前 行 中 的 下 4 列 
;加 至 col_means 
;保存 更 新 后 的 col_means 
;col index += 4 

;更 新 x 指针 

;更 新 col_means 指针 


;还 有 2 列 或 者 更 多 列 ? 
;如 果 col index + 2 > ncols， 跳 转 


;加 载 当 前 行 中 的 下 2 列 
;加 至 col means 
;保存 更 新 后 的 col_means 
;col index += 2 

;更 新 x 指针 

;更 新 col_means 指针 


; 使 用 接 下 来 的 列 ( 或 当前 行 中 的 最 后 一 列 ) 数据 更 新 col means 


eo: 


vmovsd xmm0,real8 ptr [esi] 
vaddsd xmmi1,xmmO,real8 ptr [edi] 
vmovsd real8 ptr [edi],xmmi 

add ecx,1 

add esi,8 


NextColSet: 


cmp ecx,ebx 
jl LP2 

dec edx 

jnz LP1 


; 计算 最 后 的 col means 


mov eax, [ebp+12] 


;从 最 后 一 列 中 加 载 x 
;加 至 col_means 
;保存 更 新 后 的 col_means 


;col index += 1 


;更 新 x 指针 


当前 行 中 还 有 列 数据 ? 
;如 果 是 ， 跳 转 


;nrows -= 1 


;还 有 行 数据 没有 处 理 ， 跳 转 


Jeax = nrows 
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vcvtsi2sd xmm2,xmm2,eax ;xmm2 = DPFP nrows 

mov edx, [ebp+16] ;edx = ncols 

mov edi, [ebp+20] ;edi - ptr to col means 
@0: vmovsd xmmo,real8 ptr [edi] ;edi = 指向 col means 

vdivsd xmmi, xmmo,xmm2 ;计算 最 后 均值 

vmovsd real8 ptr [edi],xmmi ;保存 col mean[i] 

add edi,8 ;更 新 col means 指针 

dec edx ;ncols -= 1 

jnz eB ;重复 直到 处 理 完 

mov eax,1 ;设置 成 功 的 返回 码 

vzeroupper 


BadArg: pop edi 
pop esi 
pop ebx 
pop ebp 
ret 


AvxPfpColMeans endp 
end 


源 程 序 AvxPackedFloatingPointColMeans.cpp ( 见 清单 14-8 ) 的 顶部 声明 了 函数 AvxPfp- 
ColMeans， 它 使 用 C++ 语言 编 写 的 简单 算法 来 计算 和 矩阵 每 列 的 均值 。 注 意 ， 此 函数 对 输入 
的 数组 x 不 验证 是 否 正确 对 齐 。 这 样 做 的 原因 是 ， 此 算法 必须 可 以 处 理 任何 行列 的 标准 双 
精度 浮 点 的 C++ 和 矩阵。 回顾 前 面 ，C++ 和 矩阵 中 的 元 素 以 行 主 (row-major) 排序 的 方式 存储 
在 一 个 连续 的 内 存 块 上 ( 见 第 2 章 )， 这 意味 着 无 法 对 指定 的 行 、 列 或 元 素 进行 对 齐 。 代 码 
中 对 col means 数组 进行 是 否 正确 对 齐 的 检测 ， 是 为 了 让 x86-AVX 汇编 语言 函数 可 以 使 用 
vmovapd 指令 访问 一 维 数 组 中 的 每 个 元 素 ， 而 不 用 担心 多 行 的 问题 。 

函数 _tmain 分 配 和 初始 化 含有 测试 值 的 矩阵 。 注 意 ，malloc 和 aligned malloc 函数 分 
别 用 来 为 矩阵 x 和 数组 col means 动态 分 配 存 储 空间 ， 相 应 的 内 存 释放 函数 是 在 _tmain 的 
末尾 调用 的 。_tmain 中 剩余 的 语句 调用 C++ 和 汇编 语言 列 均值 计算 也 数 并 把 结果 打印 出 来 。 

如 同 其 相应 的 C++ 函数 一 样 ，x86-AVX 汇编 语言 函数 AvxPfpColMeans ( 见 清单 14-9 ) 
检测 参数 的 有 效 性 。 然 后 把 col means 数组 的 每 个 元 素 都 初始 化 为 0， 它 们 将 被 用 来 计算 拢 
阵列 的 和 。 清 零 动 作 由 指令 rep stosd 来 实现 。 为 了 提高 工作 效率 ， 根 据 和 矩阵 中 的 当前 列 索 
引 和 列 中 的 元 素数 目 ， 计 算 列 和 的 循环 采用 了 不 同 的 x86-AVX 数据 转移 和 累加 指令 。 比 如 ， 
假设 矩阵 x 有 7 列 ,，x 中 的 前 4 列 可 以 使 用 256 位 宽 组 合 加 法 累加 到 col means 中 ， 接 下 来 
的 两 列 使 用 128 位 宽 组 合 加 法 累加 到 col means 中 ， 最 后 一 列 元 素 则 使 用 标量 加 法 累加 到 
col means 中 。 图 14-2 描述 了 这 种 方法 的 更 多 细节 。 

在 列 求 和 循环 的 顶端 ， 标 号 LP1 之 后 ， 是 函数 开始 对 和 矩阵 x 中 每 一 行进 行 处 理 的 起 始 
点 。 进 入 第 一 个 求 和 循环 迭代 前 ， 寄 存 器 EDX 中 包含 nrows，ESI 中 包含 指向 x 的 指针 。 
每 个 求 和 循环 都 以 mov edi,[ebp+20] 指令 开始 ， 这 条 指令 把 指向 col means 的 指针 加 载 到 
EDI 中 。xor ecx,ecx 指令 初始 化 col index 为 0。 在 标号 LP2 之 后 ， 函 数 使 用 一 系列 指令 
来 确定 在 当前 行 中 还 有 多 少 列 数据 没有 被 处 理 。 如 果 剩 余 4 列 或 者 更 多 列 ， 函 数 会 使 用 操 
作 256 位 宽 组 合 操作 数 的 指令 将 接 下 来 的 四 个 元 素 累 加 到 col means 数组 。 指 令 vmovupd 
ymm0,ymmword ptr [esi] 将 四 个 元 素 从 矩阵 x 加 载 到 YMMO0 (回顾 一 下 ， 和 矩阵 x CRIA 
对 齐 到 16 或 32 字 节 边界 ) HA, TH vaddpd ymml,ymm0,ymmword ptr [edi] 对 在 YMM0 
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中 的 当前 和 矩阵 元 素 和 相应 的 col means 元 素 求 和 ， 同 时 将 更 新 后 的 和 存储 到 col means F, 
col means 已 经 使 用 vmovapd ymmword ptr [edi], ymm1 指令 进行 了 正确 对 齐 。 而 后 更 新 寄存 


器 ECX、ESI 和 EDI， 为 计算 下 一 个 矩阵 列 元 素 集 做 好 准备 。 
ESI EDI 


矩阵 x 的 第 i 行 x86-AVX 指 令 示 例 col means 数 组 
图 14-2 使 用 不 同位 宽 的 操作 数 更 新 col. means 数组 












vmovupd ymm0,ymmvword ptr [esi] 
vaddpd ymm1,ymm0,ymmword ptr [edi] 
vmovapd ymmword ptr [edi],ymm1 







vmovupd xmm0,xmmword ptr [esi+32] 
vaddpd xmm1,xmm0,xmmword ptr [edi+32] 
vmovapd xmmword ptr [edi+32],xmm1 






vmovsd xmm0,real 8 ptr[esi+48] 
vaddsd xmm1,xmm0,real8 ptr [edi+48] 
vmovsd real8 ptr [edi--48],xmml 





上 面 描述 的 求 和 循环 被 反复 执行 ， 直 到 当前 行 中 没有 处 理 的 列 元 素 少 于 4 为 止 。 当 这 
个 条 件 满足 之 后 ， 函 数 必须 使 用 处 理 128 位 宽 组 合 操 作 数 或 64 位 宽 标 量 操作 数 的 指令 ， 对 
剩 下 的 列 (如 果 有 的 话 ) 元 素 进 行 处 理 。 如 果 还 有 3 列 元 素 需要 处 理 ， 则 上 述 两 种 指令 都 
将 被 使 用 。 函 数 针 对 上 述 场景 ， 准 备 了 相应 的 代码 块 进行 处 理 。 计 算 完 列 和 之 后 ， 用 col 
means 中 的 每 个 元 素 去 除 以 nrows， 得 到 最 后 的 列 元 素 均值 。 输 出 14-4 显示 了 示例 程序 
AvxPackedFloatingPointColMeans 的 运行 结果 。 


输出 14-4 ”示例 程序 AvxPackedFloatingPointColMeans 
Results for sample program AvxPackedFloatingPointColMeans 


Test Matrix 
row 0: 423 199 393 76 320 72 225 63 220 499 22 


row 1: 311 277 174 369 189 380 509 95 449 210 324 
row 2: 318 317 439 267 450 202 182 154 246 239 150 
IOW 3: 360 508 466 274 402 240 327 442 365 291 353 
row 4: 452 432 389 386 155 438 471 93 313 148 430 
row 5: 76 331 341 329 388 313 336 36 75 328 224 
row 6: 133 277 250 504 80 481 20 109 445 407 252 
row 7: 202 131 6 338 49 41 144 428 3 240 145 
row 8: 239 336 419 223 336 483 433 296 208 459 407 


row 9: 198 501 208 24 475 T5 30 236 461 436 36 
row 10: 508 161 291 503 386 352 492 226 291 258 276 
row 11: 53 499 132 339 26 346 422 159 292 411 62 
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row 12: 7 230 301 16 160 71 109 479 166 417 85 

col meansi[ 0]: 252.3077 col means2[ 0]: 252.3077 

col meansi[ 1]: 323.0000 col means2[ 1]: 323.0000 

col meansi[ 2]: 293.0000 col means2[ 2]: 293.0000 

col meansi[ 3]: 280.6154 col means2[ 3]: 280.6154 

col meansi[ 4]: 262.7692 col means2[ 4]: 262.7692 

col meansi[ 5]: 268.7692 col means2[ 5]: 268.7692 

col meansi[ 6]: 284.6154 col means2[ 6]: 284.6154 

col meansi[ 7]: 216.6154 col means2[ 7]: 216.6154 

col meansi[ 8]: 271.8462 col means2[ 8]: 271.8462 

col meansi[ 9]: 334.0769 col means2[ 9]: 334.0769 

col means1[10]: 212.7692 col means2[10]: 212.7692 402 
14.3 总 结 

本 章 集中 介绍 了 x86-AVX 的 组 合 浮 点 功能 。 在 这 一 章 里 ， 我 们 学 习 了 使 用 256 位 宽 组 
合 浮 点 操作 数 进行 基本 的 运算 ， 还 通过 一 系列 示例 代码 学 习 了 浮 点 数组 和 矩阵 的 SIMD 处 理 
技术 。 从 这 些 示 例 程序 中 ， 我 们 又 一 次 感受 到 了 x86-AVX 指令 集 的 优势 ， 它 减少 了 大 部 分 
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寄存 器 到 寄存 器 的 数据 传输 操作 ， 同 时 使 得 我 们 可 以 更 简单 地 进行 汇编 语言 编程 。 在 下 一 章 | ， 
学 习 使 用 x86-AVX 的 组 合 整 型 资源 的 时 候 ， 仍 然 可 以 看 到 这 个 优势 。 404 
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Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


x86-AVX 组 合 整 型 编程 


本 章 将 演示 如 何 使 用 x86-AVX 指令 集 对 256 位 组 合 整 型 操作 数 进行 各 种 运算 。 我 们 将 
通过 若干 示例 程序 演示 如 何 执行 基本 的 组 合 整 型 运算 和 解 组 操作 ， 还 准备 了 几 个 示例 程序 针 
对 8 位 无 符号 整 型 数 执行 通用 的 图 像 处理 算 法 。 本 章 中 所 有 的 示例 程序 必须 在 支持 AVX2 的 
处 理 器 和 操作 系统 上 才能 运行 。 


15.1 组 合 整 型 基础 


本 节 将 演示 如 何 使 用 x86-AVX 指令 集 执 行 组 合 整 型 操作 。 第 一 个 示例 程序 演示 256 位 
宽 操 作 数 的 基本 组 合 整 型 运算 ， 第 二 个 示例 程序 演示 使 用 YMM 寄存 器 执行 解 组 和 组 合 操 
作 ， 特 别 演示 了 对 分 开 的 两 个 128 位 位 区 执行 操作 。 


15.1.1 组 合 整 型 运算 


第 一 个 示例 程序 AvxPackedIntegerArithmetic 演示 了 如 何 对 256 位 宽 的 组 合 整 型 操作 数 
执行 基本 运算 ， 同 时 展示 了 x86-AVX 和 x86-SSE 在 执行 组 合 整 型 运算 时 的 差异 。 此 程序 的 


C++ 和 x86-AVX 汇编 语言 源 代码 分 别 列 在 清单 15-1 和 清单 15-2 Po 


清单 15-1 AvxPackedIntegerArithmetic.cpp 


#include "stdafx.h" 
#include "YmmVal.h" 


extern "C" void AvxPiI16 (YmmVal* a, YmmVal* b, YmmVal c[6]); 
extern "C" void AvxPil32 (YmmVal* a, YmmVal* b, YmmVal c[5]); 


void AvxPil16(void) 


. declspec(align(32)) YmmVal a; 
. declspec(align(32)) YmmVal b; 
. declspec(align(32)) YmmVal c[6]; 


a.i16[0] - 10; b.i16[0] = 1000; 
a.i16[1] = 20; b.i16[1] = 2000; 
a.i16[2] = 3000; b.i16[2] = 30; 
a.i16[3] = 4000; b.i16[3] = 40; 


a.i16[4] = 30000; b.i16[4] = 3000; // 加 法 溢出 
a.i16[5] = 6000; b.i16[5] = 32000; // 加 法 溢出 
a.i16[6] = 2000; b.i16[6] = -31000; // 减法 溢出 
a.i16[7] = 4000; b.i16[7] = -30000; // 减法 溢出 


a.i16[8] = 4000; b.i16[8] = -2500; 
a.i16[9] = 3600;  b.i16[9] = -1200; 
a.i16[10] = 6000; b.i16[10] = 9000; 

a.i16[11] = -20000; b.i16[11] = -20000; 


a.i16[12] = -25000; b.i16[12] = -27000; // PAR 
a.i16[13] = 8000; b.i16[13] = 28700; // 加 法 溢出 
a.i16[14] = 3; b.i16[14] = -32766; // 减法 溢出 
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a.i16[15] = -15000; b.i16[15] = 24000; // 减法 溢出 
AvxPil16_(&a, &b, c); 


printf("\nResults for AvxPiI16()\n\n"); 

printf("i a b  vpaddw vpaddsw vpsubw vpsubsw vpminsw 
vpmaxsw Nn") ; 

printf("----------------------------------------------------------- in"); 


for (int i = 0; i « 16; i++) 
{ 


const char* fs = "%7d "; 


printf("X2d ", i); 
printf(fs, a.i16[i]); 
printf(fs, b.i16[i]); 
printf(fs,:c[0].i16[i]); 
printf(fs, c[1].i16[i]); 
printf(fs, c[2].i16[i]); 
printf(fs, c[3].i16[i]); 
printf(fs, c[4].i16[i]); 
printf(fs, c[s].i16[i]); 
printf("\n"); 


} 


void AvxPil32(void) 
{ 
. declspec(align(32)) YmmVal a; 
. declspec(align(32)) YmmVal b; 
. declspec(align(32)) YmmVal c[s]; 


64; 
1024; 
-2048; 
8192; 
-256; 
4096; 
16; 
512; 
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AvxPil32 (8a, 8b, c); 


printf("\nResults for AvxPil32() Wn"); 

printf("i a b X vphaddd vphsubd vpmulld vpsllvd= 
vpsravd\n") ; 

printf ("----------------------------------------------------------- \n"); 


for (int i = 0; i < 8; i++) 
{ 


const char* fs = "X8d "; 


printf("X2d ", i); 
printf(fs, a.i32[i]); 
printf(fs, b.i32[i]); 
printf(fs, c[o].ia2[i]); 
printf(fs, c[1].i32[i]); 
printf(fs, c[2].ia2[i]); 
printf(fs, c[3].i32[i]); 
printf(fs, c[4].i32[i]); 
printf("\n"); 
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int _tmain(int argc, _TCHAR* argv[]) 
{ 

AvxPil16(); 

AvxPiI32(); 

return 0; 


清单 15-2 AvxPackedIntegerArithmetic_.asm 


.model flat,c 
.Code 


; extern "C" void AvxPiI16 (YmmVal* a, YmmVal* b, YmmVal c[6]); 


; 描述 : 本 函数 演示 多 个 组 合 16 位 整 型 运算 指令 ， 使 用 的 是 256 位 宽 操 作 数 


j 需要 : AVX2 


AvxPil16 proc 
push ebp 
mov ebp,esp 


; 加 载 参数 值 
mov eax, [ebp+8] 
mov ecx, [ebp+12] 
mov edx, [ebp+16] 


; 加 载 a 和 b， 必 须 正 确 对 齐 
vmovdqa ymmo,ymmword ptr [eax] 
vmovdqa ymmi,ymmword ptr [ecx] 


; 执行 组 合 运算 
vpaddw ymm2, ymmo, ymm1 
vpaddsw ymm3, ymmo, ymm1 
vpsubw ymm4, ymmo, ymm1 
vpsubsw ymm5,ymmo,ymm1 
vpminsw ymm6, ymmO, ymm1 
vpmaxsw ymm7,ymmO, ymm1 


; REAR 
vmovdqa ymmword ptr [edx],ymm2 
vmovdqa ymmword ptr [edx«32],ymm3 
vmovdqa ymmword ptr [edx464],ymm4 
vmovdqa ymmword ptr [edx+96],ymm5 
vmovdqa ymmword ptr [edx+128],ymm6 
vmovdqa ymmword ptr [edx«160],ymm7 


vzeroupper 
pop ebp 
ret 

AvxPili16 endp 


;eax 
;ecx 
;edx 


"on u 
5 
= 
H 
ct 
o 
i ad 


,ymmo 
j ymm1 


nou 
c 


;加 
;与 有 符号 饱和 数 相 加 ( 即 与 上 限 或 下 限 相 加 ) 
; 减 


;与 有 符号 饱和 数 相 减 
;有 符号 最 小 
;有 符号 最 大 


;保存 vpaddw 结果 
;保存 vpaddsw 结果 
;保存 vpsubw 结果 
;保存 vpsubsw 结果 
;保存 vpminsw 结果 
;保存 vpmaxsw 结果 


; extern "C" void AvxPil32 (YmmVal* a, YmmVal* b, YmmVal c[5]); 


j 
; 
; 需要 : AVX2 
> Requires: AVX2 
AvxPil32 proc 
push ebp 
mov ebp,esp 


描述 : 本 函数 演示 多 个 组 合 32 位 整 型 运算 指令 ， 使 用 的 是 256 位 宽 操作 数 
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; 加 载 参数 值 
mov eax, [ebp+8] ;eax = ptr to a 
mov ecx, [ebp+12] ;ecx = ptr to b 
mov edx, [ebp+16] ;edx = ptr to c 


;加载 a 和 b， 必 须 正确 对 齐 


vmovdqa ymmO,ymmword ptr [eax] ;ymm0 = a 
vmovdqa ymm1,ymmword ptr [ecx] ;ymmi = b 
; 执行 组 合算 术 运 算 
vphaddd ymm2,ymmo,ymmi ;水 平 加 法 
vphsubd ymm3, ymmo, ymmi ;水 平 减法 
vpmulld ymm4, ymmo, ymmi ;有 符号 乘法 ( 低 32 位 ) 
vpsllvd ymm5, ymmo, ymmi ;逻辑 左 移 
vpsravd ymm6,ymmO,ymm1 ;算术 右 移 
; 保存 结果 
vmovdqa ymmword ptr [edx],ymm2 ;保存 vphaddd 结果 


vmovdqa ymmword ptr [edx+32],ymm3 ;保存 vphsubd 结果 
vmovdqa ymmword ptr [edx+64],ymm4 ;保存 vpmulld 结果 
vmovdqa ymmword ptr [edx«96],ymm5 ;保存 vpsllvd 结果 
vmovdqa ymmword ptr [edx+128],ymm6 ;保存 vpsravd 结果 


vzeroupper 

pop ebp 

ret 
AvxPil32 endp 

end 


在 C++ 源 文 件 AvxPackedIntegerArithmetic.cpp ( 见 清单 15-1) 的 函数 AvxPill6 中 ， 首 
先 使 用 16 位 有 符号 整 型 数 初 始 化 若干 YmmVal 变量 ， 接 着 调用 汇编 语言 函数 AvxPil16 。 
AvxPil16_ 执 行 了 一 系列 的 通用 组 合 运算 ， 包 含 加 、 减 、 有 符号 最 小 值 和 有 符号 最 大 值 ， 这 
些 操作 的 执行 结果 用 几 个 printf 语句 打印 了 出 来 。 在 AvxPackedIntegerArithmetic.cpp 的 另外 
一 个 函数 AvxPil32 中 ， 先 准备 了 若干 32 位 有 符号 整 型 数 初 始 化 YmmVal 实例 ， 然 后 传 给 汇 
编 语言 函数 AvcPil32_ 执行 水 平 加 法 、 减 法 、 乘 法 和 变量 移 位 操作 。 

在 函数 序言 之 后 ，AvxPiI16_ 把 参数 a、b、c 的 指针 分 别 加 载 到 寄存 器 EAX、ECX 
和 EDX， 指 令 vmovdqa ymm0,ymmword ptr [eax] 把 变量 a 加载 到 寄存 器 YMM0。 注 意 
vmovdqa 指令 要 求 任 一 256 位 宽 的 内 存 操作 数 都 是 按 32 字 节 边界 对 齐 的 ( vmovdqu 指令 可 
以 在 未 对 齐 的 操作 数 下 使 用 )。 另 一 条 vmovdqa 指令 把 b 加 载 到 YMM1。 接 下 来 是 一 系列 的 
运算 指令 ， 包 括 组 合 有 符号 整 型 加 法 (vpaddw 和 vpaddsw)、 减 法 (vpsubw 和 vpsubsw)、 有 
符号 最 小 值 (vpminsw) 以 及 有 符号 最 大 值 (vpmaxsw)。 计 算 的 结果 存储 到 数组 c， 它 也 必 
须 被 正确 对 齐 。 

函数 AvxPiI32_ 使 用 和 AvxPiI16_ 相 同 的 指令 序列 将 a 和 b 加载 到 寄存 器 YMM0 和 
YMMI1。 然 后 执行 几 个 通用 的 运算 操作 ， 包 括 水 平 加 法 (vphaddd)、 水 平 减法 (vphsubd) 和 
有 符号 32 位 乘法 (vpmulld). AvxPil32_ 还 演示 了 位 移 指令 的 用 法 ,包括 vpsllvd (SEME 
辑 左 移 ) 和 vpsravd (变量 位 算术 右 移 )。 这 些 指 令 在 AVX2 中 首次 出 现 ， 如 图 15-1 所 描述 ， 
对 第 一 个 源 操作 数 的 双 字 元 素 进 行 移 位 ， 移 动 的 位 数 在 相应 的 第 二 个 源 操作 数 中 给 定 。 注 
意 ，AvxPiI16 和 AvxPilI32_ 在 函数 结语 前 都 调用 了 vzeroupper 指令 。 输 出 15-1 显示 了 示例 
程序 AvxPackedIntegerArithmetic 的 执行 结果 。 
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vpsllvd ymm2,ymm0,ymm1 


p suupsTpHUEESTUEESpE mmi 
32768 | ous | 524288 | -65536 | 262144. -8192 | 32768 | 1024 | ymm? 


vpsravd ymm2,ymm0,ymm1 


Cmm poe [e [e [s Tn i [ n 
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图 15-1 1&4 vpsllvd 和 vpsravd 的 执行 





输出 15-1 示例 程序 AvxPackedIntegerArithmetic 


Results for AvxPil16() 


Oo ON DU FPWNR OO 


RR 
Hn 


12 
13 
14 
15 


NOU PWNPFH OO 


15.1.2 


a b vpaddw vpaddsw vpsubw vpsubsw vpminsw vpmaxsw 

10 1000 1010 1010 -990 -990 10 1000 

20 2000 2020 2020 -1980 -1980 20 2000 
3000 30 3030 3030 2970 2970 30 3000 
4000 40 4040 4040 3960 3960 40 4000 


30000 3000 -32536 32767 27000 27000 3000 30000 
6000 32000 -27536 32767 -26000 -26000 6000 32000 
2000 -31000 -29000 -29000 -32536 32767 -31000 2000 
4000 -30000 -26000 -26000 -31536 32767 -30000 4000 
4000 -2500 1500 1500 6500 6500 -2500 4000 
3600 -1200 2400 2400 4800 4800 -1200 3600 
6000 9000 15000 15000  Á-3000  -3000 6000 9000 

-20000 -20000 25536 -32768 0 O -20000 -20000 
-25000 -27000 13536 -32768 2000 2000 -27000 © -25000 
8000 28700 -28836 32767 -20700 -20700 8000 28700 

3 -32766 -32763 -32763 -32767 32767 -32766 3 
-15000 24000 9000 9000 26536 -32768 -15000 24000 


a b vphaddd vphsubd vpmulld vpsllvd vpsravd 

64 4 1088 -960 256 1024 4 
1024 5 6144 -10240 5120 32768 32 
-2048 2 8 H -4096 -8192 -512 
8192 5 7 -3 40960 262144 256 
-256 8 3840 -4352 -2048 -65536 -1 
4096 7 528 -496 28672 524288 32 

16 3 15 1 48 128 2 

512 6 9 =3 3072 32768 8 
组 合 整数 解 组 操作 


#15 Ž 





类 似 于 MMX 和 x86-SSE, x86-AVX 指令 集 也 支持 对 各 种 字 长 元 素 的 数据 进行 解 组 操作 。 
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在 下 一 个 示例 程序 AvxPackedIntegerUnpack 中 ， 我 们 将 学 习 如 何 对 256 位 宽 的 操作 数 进 行 双 字 
到 四 字 的 解 组 操作 ， 以 及 如 何 使 用 有 符号 饱和 数 算法 将 256 位 宽 的 双 字 操作 数组 合成 字 。 清 单 
15-3 和 清单 15-4 分 别 列 出 了 示例 程序 AvxPackedIntegerUnpack 的 C++ 和 汇编 语言 源 代 码 。 


清单 15-3 AvxPackedlntegerUnpack.cpp 





#include "stdafx.h" 
#include "YmmVal.h" 


extern "C" void AvxPiUnpackDO (YmmVal* a, YmmVal* b, YmmVal c[2]); 
extern "C" void AvxPiPackDW (YmmVal* a, YmmVal* b, YmmVal* c); 


void AvxPiUnpackDO(void) 
. declspec(align(32)) YmmVal a; 


. declspec(align(32)) YmmVal b; 
. declspec(align(32)) YmmVal c[2]; 


a.i32[0] = 0x00000000; b.i32[0] = 0x88888888; 
a.i32[1] = 0x11111111; b.i32[1] = 0x99999999; 
a.i32[2] = 0x22222222; b.i32[2] = Oxaaaaaaaa; 
a.i32[3] = 0x33333333; b.i32[3] = Oxbbbbbbbb; 
a.i32[4] = 0x44444444; b.i32[4] = Oxcccccccc; 
a.i32[5] = 0x55555555; b.i32[5] = oxdddddddd; 
a.i32[6] = 0x66666666; b.i32[6] = Oxeeeeeeee; 
a.i32[7] = 0x77777777; b.i32[7] = Oxffffffff; 


AvxPiUnpackDO (&a, 8b, c); 
printf("\nResults for AvxPiUnpackDO()Wn"); 


printf("i a b vpunpckldq vpunpckhdq\n"); 
printf ("-------------------------------------------------- \n"); 
for (int i = 0; i < 8; i++) 
{ 
const char* fs = "Ox%08X "; 
printf("%-2d ^", i); 
printf(fs, a.u32[i]); 
printf(fs, b.u32[i]); 
printf(fs, c[0].u32[i]); 
printf(fs, c[1].u32[i]); 
printf("\n"); 
} 
} 
void AvxPiPackDW(void) 
{ 


char buff[256]; 

. declspec(align(32)) YmmVal a; 
. declspec(align(32)) YmmVal b; 
. declspec(align(32)) YmmVal c; 


a.i32[0] = 10; b.i32[0] = 32768; 
a.i32[1] = -200000; b.i32[1] = 6500; 

a.i32[2] - 300000; b.i32[2] = 42000; 
a.i32[3] = -4000; b.i32[3] = -68000; 
a.i32[4] = 9000; b.i32[4] = 25000; 


] = ] = 
a.i32[5] = 80000; b.i32[5] = 500000; 
] = 200; b.i32[6] = -7000; 
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a.i32[7] = -32769; b.i32[7] = 12500; 


AvxPiPackDW (&a, &b, &c); 


printf("\nResults for AvxPiPackDW()\n\n"); 


printf("a lo %s\n", a.ToString i32(buff, 
printf("a hi %s\n", a.ToString i32(buff, 
printf("\n"); 


printf("b lo %s\n", b.ToString i32(buff, 
printf("b hi %s\n", b.ToString i32(buff, 
printf("\n"); 


printf("c lo %s\n", c.ToString_i16(buff, 
printf("c hi %s\n", c.ToString ii6(buff, 

int _tmain(int argc, _TCHAR* argv[]) 
AvxPiUnpackDO() ; 


AvxPiPackDW(); 
return 0; 


sizeof(buff), false)); 
sizeof(buff), true)); 


sizeof(buff), false)); 
sizeof(buff), true)); 


sizeof(buff), false)); 
sizeof(buff), true)); 


清单 15-4  AvxPackedlntegerUnpack .asm 


.model flat,c 
.code 


; extern "C" void AvxPiUnpackDO (YmmVal* a, 


YmmVal* b, YmmVal c[2]); 


; 描述 : 本 函数 使 用 256 位 宽 操作 数 演示 vpunpckldq 和 vpunpckhdq 指令 的 用 法 


; 需要: AVX2 


AvxPiUnpackDO proc 
push ebp 
mov ebp,esp 


; 加 载 参数 值 
mov eax, [ebp+8] 
mov ecx, [ebp+12] 
mov edx, [ebp+16] 
vmovdqa ymmO,ymmword ptr [eax] 
vmovdqa ymmi,ymmword ptr [ecx] 


; 执行 双 字 到 四 字 的 解 组 操作 
vpunpckldq ymm2,ymmo,ymm1 
vpunpckhdq ymm3, ymmo, ymm1 
vmovdga ymmword ptr [edx],ymm2 
vmovdqa ymmword ptr [edx+32],ymm3 


vzeroupper 

pop ebp 

ret 
AvxPiUnpackDO endp 


;指向 a 的 指针 
;指向 b 的 指针 
;指向 c 的 指针 
;ymm0 = a 
;ymm1 = b 


; 解 组 低 双 字 部 分 
; 解 组 高 双 字 部 分 
;保存 低位 部 分 结果 
;保存 高 位 部 分 结果 


; extern "C" void AviPiPackDW (YmmVal* a, YmmVal* b, YmmVal* c); 


; 描述 : 本 函数 使 用 256 位 宽 操作 数 演示 vpackssdw .指令 的 用 法 


; 需要 : AVX2 
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AvxPiPackDW proc 
push ebp 
mov ebp,esp 


; 加 载 参 数值 
mov eax, [ebp+8] 
mov ecx, [ebp+12] 
mov edx, [ebp+16] 
vmovdqa ymmo,ymmword ptr [eax] 
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;指向 a 的 指针 
;指向 b 的 指针 
;指向 c 的 指针 
;ymmo = a 


vmovdqa ymmi,ymmword ptr [ecx] ;ymmi = b 

; 使 用 有 符号 饱和 数 将 双 字 组 合 为 字 
vpackssdw ymm2, ymmo, ymm1 
vmovdqa ymmword ptr [edx],ymm2 


;ymm2 = AAS 
;保存 结果 


vzeroupper 
pop ebp 
ret 

AvxPiPackDW endp 
end 


在 清单 15-3 的 开始 部 分 ， 函 数 AvxPiUnpackDQ 使 用 双 字 测试 值 初始 化 YmmVal 实例 
a 和 b， 然 后 调用 汇编 语言 函数 AvxPiUnpackDQ _， 执 行 x86-AVX 解 组 指令 vpunpckldq 和 
vpunpckhdq。 执 行 的 结果 使 用 了 一 个 简单 的 循环 和 几 个 printf 语句 打印 出 来 。 在 C++ 代码 
中 还 包含 函数 AvxPiPackDW， 它 初始 化 两 个 YmmVal 变量 ， 同 时 调用 AvxPiPackDW_， 主 
要 用 来 演示 vpackssdw( 使 用 有 符号 饱和 数 进行 双 字 到 字 的 组 合 ) 指令 的 用 法 。 

汇编 语言 文件 AvxPackedIntegerUnpack .asm( 见 清单 15-4 ) 包含 函数 AvxPiUnpackDQ_ 
和 AvxPiPackDW_ 的 定义 。 在 函数 AvxPiUnpackDQ _ 中， 首先 将 参数 值 a 和 b 分别 加 载 到 
Aar YMMO 和 YMM1， 然 后 执行 vpunpckldq fll vpunpckhdq 指令 ， 并 将 结果 保存 到 数组 
cc 中。 回顾 第 12 章 学 习 的 内 容 ， 许 多 256 位 宽 x86-AVX 指令 执行 操作 的 时 候 ， 使 用 两 个 相 
对 独立 的 128 位 的 位 区 。 图 15-2 中 显示 了 在 这 一 原则 下 vpunpckldq 和 vpunpckhdq 指令 执 
行 的 详细 细节 。 这 些 指令 执行 两 个 独立 的 解 组 操作 : 一 个 使 用 寄存 器 位 255:128 (高 位 区 )， 


vpunpckldq ymm2,ymm0,ymm1 
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图 15-2 vpunpckldq 和 vpunpckhdq 指令 的 执行 演示 
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另 一 个 使 用 寄存 器 位 127:0 (低位 区 )。 最 后 ， 在 函数 AvxPiUnpackDQ_ 中 使 用 了 YMM 寄存 
器 ， 为 了 预防 潜在 的 性 能 问题 ， 在 函数 结语 前 必须 调用 vzeroupper 指令 。 

汇编 语言 函数 AvxPiPackDW_ 将 参数 值 a All b 分 别 加 载 到 寄存 器 YMMO 和 YMMI. $ 
令 vpackssdw ymm2,ymm0,ymml 使 用 有 符号 饱和 数 将 YMMO Ail YMMI 中 的 组 合 有 符号 双 
字 整 数 转 换 成 组 合 有 符号 字 整 数 ， 并 将 结果 保存 到 YMM2。 图 15-3 显示 了 vpackssdw 指令 
执行 的 详细 细节 。 和 输出 15-2 给 出 了 示例 程序 AvxPackedIntegerUnpack 的 运行 结果 。 


vpackssdw ymm2,ymm0,ymm1 


12500 rovo | 32767 32768| 200 |32767 | 9000 |-32768|32767 | 6500 |32767 100076 anaal 10 | ymm2 


ymm1[255:128] ymm0[255:128] ymm1[127:0] ymm0[127:0] 





ymm0 


























初始 源 操作 数 
图 15-3 vpackssdw 指令 的 执行 演示 


输出 15-2 ”示例 程序 AvxPackedlntegerUnpack 
Results for AvxPiUnpackDO() 





i a b vpunpckldq vpunpckhdq 
0 0x0000 0x8888 0x0000 0x2222 
1 Ox1111 0x9999 0x8888 OxAAAA 
2  0x2222 OxAAAA 0x1111 0x3333 
3  0x3333 OxBBBB 0x9999 OxBBBB 
4  Ox4444 OxCCCC 0x4444 0x6666 
5 0x5555 OxDDDD OxCCCC OxEEEE 
6 0x6666 OxEEEE 0x5555 0x7777 
7 0x7777 OxFFFF OxDDDD OxFFFF 


Results for AvxPiPackDW() 


a lo 10 -200000 | 300000 -4000 
a hi 9000 80000 | 200 -32769 
b lo 32768 6500 | 42000 -68000 
b hi 25000 500000 | -7000 12500 
clo 10  -32768 32767 -4000 | 32767 6500 32767  -32768 
c hi 9000 32767 200  -32768 | 25000 32767 -7000 12500 


15.2 高 级 编程 
本 节 的 示例 程序 着 重 介绍 使 用 x86-AVX 组 合 整 型 资源 的 高 级 编程 技巧 。 第 一 个 示例 程 
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序 使 用 x86-AVX 指令 集 实 现 像素 裁剪 算法 ， 第 二 个 示例 程序 是 第 10 St rn PR BRL ELTE AS B 
x86-AVX 实现 。 在 两 个 例子 中 ， 除 了 描述 x86-SSE 和 x86-AVX 的 一 些 差异 外 ， 还 演示 了 如 
何 使 用 AVX2 中 一 些 新 的 组 合 整 型 指令 。 


15.2.1 图 像 像素 裁剪 

像素 裁剪 是 一 种 图 像 处 理 技术 ， 对 人 处 于 两 个 阅 值 间 的 每 个 像素 ， 限 定 其 亮度 值 。 这 
种 技术 常用 来 消除 图 像 中 极 亮 和 极 暗 的 像素 ， 以 减少 其 动态 范围 。 本 小 节 中 的 示例 程序 
AvxPackedIntegerPixelClip 演示 如 何 使 用 x86-AVX 指令 集 裁 剪 8 位 灰 度 图 像 ， 其 相关 的 源 
代码 见 清单 15-5、 清 单 15-6 和 清单 15-7, 417 


清单 15-5  AvxPackedlntegerPixelClip.h 
#pragma once 


#include "MiscDefs.h" 


// 此 结构 必须 与 AvxPackedIntegerPixelClip_.asm 中 声明 的 结构 一 致 
typedef struct 
{ 


Uint8* Src; // 源 缓 冲 区 
Uint8* Des; // 目标 缓冲 区 
Uint32 NumPixels; // 像素 个 数 
Uint32 NumClippedPixels; // 裁剪 的 像素 个 数 
Uint8 ThreshLo; // (RE 
Uint8 ThreshHi; // Bea 

) PcData; 


// 函数 定义 在 AvxPackedIntegerPixelClip.cpp 中 
bool AvxPiPixelClipCpp(PcData* pc data); 


// 函数 定义 在 AvxPackedIntegerPixelClip .asm 中 
extern "C" bool AvxPiPixelClip (PcData* pc data); 


// 函数 定义 在 AvxPackedIntegerPixelClipTimed.cpp 中 
void AvxPackedIntegerPixelClipTimed(void); 


清单 15-6 AvxPackedlntegerPixelClip.cpp 


#include "stdafx.h" 
#include "AvxPackedIntegerPixelClip.h" 
#include «malloc.h» 
#include «memory.h» 
#include <stdlib.h> 


bool AvxPiPixelClipCpp(PcData* pc_data) 


Uint32 num_pixels = pc_data->NumPixels; 
Uint8* src = pc_data->Src; 
Uint8* des = pc_data->Des; 


if ((num pixels < 32) || ((num pixels & Ox1f) !- 0)) 
return false; 


if (((uintptr t)src & oxif) !- 0) 
return false; 
if (((uintptr t)des & Ox1f) !- 0) 
return false; 418 
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} 


Uint8 thresh_lo = pc_data->ThreshLo; 
Uint8 thresh_hi = pc_data->ThreshHi; 
Uint32 num_clipped_pixels = 0; 


for (Uint32 i = 0; i « num pixels; i++) 
{ 
Uint8 pixel = src[i]; 


if (pixel < thresh_lo) 


des[i] = thresh_lo; 
num_clipped_pixels++; 


else if (pixel > thresh_hi) 


des[i] = thresh_hi; 
num_clipped_pixels++; 


else 


des[i] = src[i]; 


pc_data->NumClippedPixels = num_clipped_pixels; 
return true; 


void AvxPackedIntegerPixelClip(void) 


{ 


const Uint8 thresh_lo = 10; 

const Uint8 thresh hi = 245; 

const Uint32 num_pixels = 4 * 1024 * 1024; 

Uint8* src = (Uint8*) aligned malloc(num pixels, 32); 
Uint8* desi - (Uint8*) aligned malloc(num pixels, 32); 
Uint8* des2 - (Uint8*) aligned malloc(num pixels, 32); 


M 


srand(157); 
for (int i = 0; i « num pixels; i++) 
src[i] = (Uint8)(rand() % 256); 


PcData pc datai; 
PcData pc data2; 


pc datai.Src = pc data2.Src = src; 

pc datai.Des = desi; 

pc data2.Des - des2; 

pc datai.NumPixels = pc data2.NumPixels = num pixels; 
pc datai.ThreshLo = pc data2.ThreshLo = thresh lo; 

pc datai.ThreshHi - pc data2.ThreshHi - thresh hi; 
AvxPiPixelClipCpp(&pc data); 
AvxPiPixelClip (8pc data2); 


printf("Results for AvxPackedIntegerPixelClip Wn"); 


if (pc datai.NumClippedPixels !- pc data2.NumClippedPixels) 
printf(" NumClippedPixels compare error! n"); 


printf(" NumClippedPixelsi: XuWn", pc data1.NumClippedPixels); 
printf(" NumClippedPixels2: XuWn", pc data2.NumClippedPixels); 


if (memcmp(desi, des2, num pixels) -- 0) 
printf(" Destination buffer memory compare passedin"); 
else 
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printf(" Destination buffer memory compare failed! Wn"); 


aligned free(src); 
aligned free(des1); 
aligned free(des2); 


} 

int _tmain(int argc, _TCHAR* argv[]) 

{ 
AvxPackedIntegerPixelClip(); 
AvxPackedIntegerPixelClipTimed(); 
return 0; 

} 


清单 15-7 AvxPackedIntegerPixelClip .asm 
.model flat,c 


;此 结构 必须 与 AvxPackedIntegerPixelClip.h. 中 声明 的 结构 一 致 


PcData struct 

Src dword ? ; 源 缓冲 区 

Des dword ? ; 目标 缓冲 区 
NumPixels dword ? ;像素 个 数 
NumClippedPixels ^ dword ? ;裁剪 的 像素 个 数 
ThreshLo byte ? {Kee 
ThreshHi byte ? ;高 阅 值 

PcData ends 


; 常量 区 域 ( 自 定义 的 段 ) 
PcConstVals segment readonly align(32) public 


PixelScale byte 32 dup(80h) ;像素 从 Uint8 转换 为 Int8 的 调节 值 420 


; 下 面 定义 的 值 主要 是 为 了 演示 
; 注意 对 齐 指令 align 32 在 .const 段 中 无 法 使 用 


Test1 dword 10 
Test2 qword -20 
align 32 
Test3 byte 32 dup(7fh) 
PcConstVals ends 
.code 


; extern "C" bool AvxPiPixelClip (PcData* pc data); 
; 描述 : 本 函数 裁剪 图 像 缓冲 区 中 值 在 ThreshLo 和 ThreshHi 间 的 像素 
; 需要 : AVX2, POPCNT 


AvxPiPixelClip proc 
push ebp 
mov ebp,esp 
push ebx 
push esi 
push edi 


;加载 并 验证 参数 


XOI eax,eax 


mov ebx, [ebp+8] jebx = pc data 
mov ecx, [ebx+PcData.NumPixels] ;ecx = num pixels 
cmp ecx,32 


jl BadArg ;如 果 num pixels < 32 则 跳 转 
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test ecx,1fh 
jnz BadArg 


mov esi,[ebx«PcData.Src] 
test esi,1fh 
jnz BadArg 


mov edi, [ebx+PcData.Des ] 
test edi,ifh 
jnz BadArg 


; 创建 组 合 thresh lo 和 thresh_hi 数据 值 


^t 


Fa 


15 = 





;如 果 num pixels X 32 !- 0 则 跳 转 
;esi = Src 

;如 果 Src 没有 对 齐 则 跳 转 

jedi = Des 


;如 果 Des 没有 对 齐 则 跳 转 


vmovdqa ymm5,ymmword ptr [PixelScale] 


vpbroadcastb ymmo, [ebx+PcData.ThreshLo] j ymmo 
vpbroadcastb ymmi, [ebx«PcData.ThreshHi] ;ymmi 


vpsubb ymm6,ymmO, ymm5 
vpsubb ymm7,ymm1, ymm5, 


xor edx,edx 


shr ecx,5 
; 扫描 图 像 缓冲 区 ， 参 照 阔 值 裁剪 像素 
@@: vmovdqa ymmO,ymmword ptr [esi] 


vpsubb ymmo, ymmo, ymm5 


vpcmpgtb ymm1, ymmO, ymm7 
vpand ymm2,ymm1,ymm7 


vpcmpgtb ymm3 , ymm6 , ymmo 
vpand ymm4, ymm3 , ymm6 


vpor ymm1, ymm1, ymm3 


vpor ymm2,ymm2,ymm4 
vpandn ymm3,ymm1, ymmo 


vpor ymm4,ymm3,ymm2 
vpaddb ymm4,ymm4 , ymm5 


vmovdqa ymmword ptr [edi],ymm4 


; 更 新 num clipped pixels 
vpmovmskb eax, ymm1 
popcnt eax,eax 
add edx,eax 
add esi, 32 
add edi, 32 
dec ecx 
jnz @B 


; 保存 num clipped pixels 
mov eax,1 


thresh lo 
thresh hi 


;ymm6 = 调节 thresh lo 
;ymm7 = 调节 thresh hi 


;edx = num clipped pixels 
jecx = 32 字 节 块 的 数目 
;ymmo = 未 调节 像素 
;ymm0 = 已 调节 像素 


;像素 值 大 于 thresh_hi HHE 
;大 于 阅 值 的 像素 的 新 值 


;像素 值 小 于 thresh 1o 的 掩 码 thresh lo 
;小 于 阅 值 的 像素 的 新 值 


;所 有 裁剪 像素 的 掩 码 


;裁剪 像素 
;未 裁剪 像素 


;最 终 调 节 的 裁剪 像素 
;最 终 示 调节 的 裁剪 像素 


;保存 裁剪 像素 


;eax = 裁剪 像素 掩 码 
;计算 裁剪 像素 数目 
;更 新 num_clipped pixels 


;设置 成 功 返 回 码 


mov [ebx+PcData.NumClippedPixels], edx 


vzeroupper 


BadArg: pop edi 
pop esi 
pop ebx 
pop ebp 
ret 
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AvxPiPixelClip endp 
end 


C++ 头 文件 AvxPackedIntegerPixelClip.h ( 见 清单 15-5 ) 声明 了 一 个 名 为 PcData 的 结构 
体 ， 这 个 结构 体 与 其 汇编 语言 的 等 价 定义 是 用 来 维护 裁剪 算法 用 的 各 个 数据 项 。 代 码 文 件 
AvxPackedInteger-PixelClip.cpp ( 见 清单 15-6 ) 的 开头 定义 了 函数 AvxPiPixelClipCpp, #9 
fiE 4 FH ft E P3 FEE US. P] RE np DC ETT RA AY. PRE ART XT num pixels 进行 验证 ， 包 
括 大 小 验证 以 及 是 否 能 被 32 整除 。 图 像 的 像素 数 能 整除 32 这 个 要 求 对 算法 的 约束 并 不 像 看 
上 去 那么 苛刻 。 实 际 上 ， 大 多 数 的 数字 图 像 都 使 用 64 像素 的 整数 倍 来 储存 ， 这 是 JPEG E 
缩 技术 的 处 理 要 求 。 函 数 接 下 来 对 源 缓冲 区 和 目标 缓冲 区 是 否 数据 对 齐 进行 验证 。 

主 循环 使 用 的 算法 比较 简单 ， 对 从 源 图 像 缓 冲 区 输入 的 像素 进行 判断 ， 看 是 不 是 在 
thresh lo 和 thresh_hi 区 间 内 。 如 果 不 是 则 以 相应 的 贱 值 替 代 并 存 人 目标 图 像 缓 冲 区 内 ， 如 
果 在 区 间 内 ， 则 不 做 改变 存 人 。 处 理 循环 中 还 计算 了 裁剪 像素 的 数目 ， 用 来 和 该 算法 的 汇编 
语言 版 本 做 对 比 。 

清单 15-6 还 包含 了 C++ ph RW AvxPackedIntegerPixelClip， 在 函数 开始 处 为 模拟 的 源 图 
像 缓 冲 区 和 目标 图 像 缓 冲 区 动态 分 配 了 存储 空间 。 接 着 使 用 0 到 255 间 的 随机 数 初始 化 源 图 
像 缓 冲 区 中 的 像素 。 初 始 化 PeData 型 变量 pc datal 和 pc_data2 之 后 ， 函 数 调用 C++ 和 汇 
编 版 本 的 像素 裁剪 算法 ， 并 对 两 个 算法 执行 的 结果 进行 差异 比较 。 

清单 15-7 显示 了 像素 裁剪 算法 的 汇编 实现 版 本 。 郴 数 开 头 定义 了 结构 体 PcData 的 汇 
编 版 本 。 接 着 定义 了 一 个 独立 的 内 存 段 PecConstVals， 用 来 存放 算法 所 需 的 常量 。 在 这 里 
定义 独立 的 内 存 段 ， 而 不 是 使 用 .const 段 ， 是 因为 .const 段 无 法 进行 32 字 节 边 界 对 齐 。 
PcConstVals 段 使 用 readonly align(32) public 语句 定义 了 一 个 允许 32 字 节 数据 对 齐 的 只 读 内 
存 段 。 注 意 在 此 内 存 段 中 的 第 一 个 数据 值 PixelScale， 是 自动 对 齐 到 32 字 节 边界 的 。 对 256 
位 宽 组 合 值 进行 适当 对 齐 后 就 可 以 使 用 vmovdqa 指令 了 。PcConstVals 中 包含 的 其 他 数据 值 
只 是 为 了 演示 使 用 。 

在 函数 序言 之 后 ， 与 C++ 版 本 类 似 ，AvxPiPixelClip_ 进 行 像素 大 小 和 缓冲 区 对 齐 的 
验证 。 指 令 vmovdqa ymm5,ymmword ptr[PixelScale] 把 像素 映射 值 加 载 到 寄存 器 YMMS, 
这 个 参数 值 用 来 把 像素 值 从 [0, 255] 重新 调节 到 [-128, 127]。 下 一 条 指令 vpbroadcastb 
ymm0,[ebx+PcData.ThreshLo] (广播 整 型 数据 ) 把 源 操作 数 中 的 字 节 ThreshLo 4% 91 F) YMMO 
中 的 所 有 32 字 节 元 素 中 。 男 一 条 vpbroadcastb 指令 执行 同样 的 操作 ， 不 过 操作 数 换 为 寄存 器 
YMM! 和 ThreshHi。 接 下 来 ， 所 有 这 些 值 均 被 vpsubb 指令 使 用 PixelScale 进行 重新 调节 。 

图 15-4 显示 了 执行 像素 裁剪 过 程 的 指令 序列 。 在 开始 时 ， 主 处 理 循 环 的 每 个 迭代 
使 用 指令 vmovdqa 从 源 图 像 缓 冲 区 加 载 32 像素 块 到 寄存 器 YMM0。 接 着 函数 使 用 指令 
vpsubb ymm0,ymm0,ymm5 重新 调节 YMMO 中 的 像素 (回顾 一 下 ，YMM5 中 已 经 包含 了 
PixelScale)。 上 述 过 程 完 成 后 ， 执 行 vpcmpgtb 指令 ， 该 指令 对 所 有 大 于 ThreshHi 的 像素 计 
算 掩 码 。 注 意 ，vpcmpgtb 指令 执行 字 节 比 较 的 时 候 使 用 的 是 有 符号 整 型 运算 ， 这 就 是 之 前 
进行 像素 重新 调节 的 原因 。 第 二 条 vpcmpgtb 指令 计算 所 有 小 于 ThreshLo 的 像素 的 掩 码 。 特 
别 要 注意 的 是 ， 这 里 的 源 操 作 数 被 反 转 了 ( 即 第 一 个 操作 数 包 含 准 值 ， 第 二 个 操作 数 包 含 
像素 值 )， 目 的 是 计算 小 于 ThreshLo 的 像素 掩 码 。 函 数 使 用 这 些 阔 值 掩 码 和 一 些 组 合 布尔 代 
数 ， 对 处 于 阔 值 之 外 (大 于 ThreshHi， 小 于 ThreshLo) 的 像素 值 进行 替换 。 更 新 后 的 像素 块 
保存 到 目标 缓冲 区 中 。 
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PixelScale 


[son | 80h | son | 80h | son | son | son [80h] ymms 


已 调节 ThreshLo ( 未 调节 时 为 0Ah ) 


8Ah|8Ah|8Ab| 8Ah| 8Ah|8Ah|8Ah|8Ah] ymm6 


已 调节 ThreshHi (未 调节 时 为 FSh ) 


75h | 75h | 75h | 75h | 75h ymm7 


vmovdqa ymm0, ymmword ptr [esi] 


21h | 06h [FBh [Fan] 44h | 16h [os | in ] ymmo 


vpsubb ymm0, ymm0, ymm5 


Aii [sen ran an caos [uS] ymmo 


vpcmpgtb ymm1, ymm0, ymm7 


oan [oon [rr [oo [one [oon] 


vpand ymm2, ymml, ymm7 


00h | 00h | 75h 00h | 00h | 00h | 0h | ymm2 

















ymml 





vpcmpgtb ymm3, ymm6, ymm0 


00h | FFh| 00h | 00h | 00h | 00h | FFh| 00h | ymm3 


vpand ymm4, ymm3, ymm6 
00h | 8Ah| 00h 00h 8Ah ymm4 





vpor ymml, ymml, ymm3 
oos [ren [rrn[ren[oon [oos [rr [00] mn: 


vpor ymm2, ymm2, ymm4 


00h | Ah] 75h | 75h | 00h [00h | gn] oon | ymm2 


vpandn ymm3, ymml, ymm0 


CA [oo [one [oo cx 965 [on [515] vmm: 


vpor ymm4, ymm3, ymm2 
Ei [san vss 7s [cen[oen [SA] Gi] mm. 
vpaddb ymm4, ymm4, ymm5 


Gris a NC mme 








未 调节 像素 


已 调节 像素 


像素 值 大 于 ThreshHi 的 掩 码 


大 于 ThreshHi 的 像素 新 值 


像素 值 小 于 ThreshLo 的 掩 码 


小 于 ThreshLo 的 像素 新 值 


所 有 裁剪 像素 的 掩 码 


已 裁剪 像素 


未 裁剪 像素 


最 终 已 调节 的 裁剪 像素 


最 终 未 调节 的 裁剪 像素 


i. 上 述 的 指令 序列 只 显示 了 每 个 YMM 寄存 器 的 低 八 字 节 内 容 
图 15-4 用 于 进行 像素 裁剪 的 x86-AVX 指令 序列 


指令 vpmovmskb eax,ymml 创建 了 已 裁剪 像素 的 掩 码 ， 并 将 其 存 人 寄存 器 EAX (此 操 
作 由 vpmovmskb 执行 ， 相 当 于 eax[i] = ymml[i*8+7]， 其 中 1 = 0,1,2,…,31 )。 接 着 执行 指令 
popcnt eax,eax ， 计 算 当 前 像素 块 中 已 裁剪 像素 数目 ， 存 人 EAX 中 。 下 一 指令 add edx,eax 
更 新 保存 在 EDX 中 的 裁剪 像素 数目 。 执 行 完 上 述 主 处 理 循环 ， 寄 存 器 EDX 中 的 值 转 存 入 


PcData 结构 成 员 NumClippedPixels 中 。 


示例 程序 AvxPackedIntegerPixelClip 的 执行 结果 如 输出 15-3 所 示 。 表 15-1 列 出 了 在 使 
用 8MB 图 像 缓 冲 区 的 情况 下 C++ 和 汇编 版 本 裁剪 算法 的 执行 时 间 。 和 本 书 之 前 所 采用 的 时 
间 测 量 不 同 ， 表 15-1 中 没有 包含 Intel Core i3-2310M 的 基准 时 间 ， 因 为 这 款 处 理 器 不 支持 


AVX2 指令 集 。 
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输出 15-3 ”示例 程序 AvxPackedintegerPixelClip 


Results for AvxPackedIntegerPixelClip 
NumClippedPixelsi: 327228 
NumClippedPixels2: 327228 
Destination buffer memory compare passed 


Benchmark times saved to file — AvxPackedIntegerPixelClipTimed.csv 


表 15-1 AvxPiPixelClip 函数 的 平均 执行 时 间 (单位 : 微 秒 ) 


CPU AvxPiPixelClipCpp (C++) AvxPiPixelClip | (x86-AVX) 
Intel Core 17-4770 8866 1075 
Intel Core i7-4600U 10 235 1021 


15.2.2 E143] 48 — E 


第 10 章 中 ， 我 们 学 习 了 示例 程序 SsePackedIntegerThreshold, E {#}H x86-SSE 指令 集 执 
行 灰 度 图 像 的 阔 值 计算 。 它 也 计算 了 超过 阔 值 的 灰 度 像素 的 平均 强度 值 。 本 节 将 给 出 实现 类 
似 功 能 的 图 像 阔 值 计算 程序 的 x86-AVX 版 本 。 新 的 示例 程序 名 叫 AvxPackedIntegerThreshold， 
它 再 次 显示 了 x86-AVX 相 比 于 x86-SSE 的 性 能 优势 。 示 例 程序 的 源 代码 分 别 参见 清单 15-8、 
清单 15-9 和 清单 15-10。 


清单 15-8 AvxPackedlntegerThreshold.h 


#pragma once 
#include "ImageBuffer.h" 


// 图 像 阅 值 数据 结构 。 此 结构 与 AvxPackedIntegerThreshold_.asm 中 定义 的 结构 一 致 
typedef struct 
{ 


Uint8* PbSrc; // 源 图 像 像 素 缓冲 区 
Uint8* PbMask; // 掩 码 像素 缓冲 区 
Uint32 NumPixels; // 源 图 像 像 素 的 数目 
Uint8 Threshold; // 图 像 阔 值 

Uint8 Pad[3]; // 供 将 来 使 用 


Uint32 NumMaskedPixels; // 掩 码 像素 数目 

Uint32 SumMaskedPixels; // EBREA 

double MeanMaskedPixels; // 撞 码 像素 均值 
) ITD; 


// 函数 定义 在 AvxPackedIntegerThreshold.cpp 中 
extern bool AvxPiThresholdCpp(ITD* itd); 
extern bool AvxPiCalcMeanCpp(ITD* itd); 


// 函数 定义 在 AvxPackedIntegerThreshold .asm 中 
extern "C" bool AvxPiThreshold (ITD* itd); 
extern "C" bool AvxPiCalcMean (ITD* itd); 


// 函数 定义 在 AvxPackedIntegerThresholdTimed.cpp 中 
extern void AvxPiThresholdTimed(void); 


// 其 他 常数 
const Uint8 TEST THRESHOLD = 96; 
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清单 15-9 AvxPackedlntegerThreshold.cpp 


#include "stdafx.h" 
#include "AvxPackedIntegerThreshold.h" 
#include «stddef.h» 


extern "C" Uint32 NUM PIXELS MAX = 16777216; 


bool AvxPiThresholdCpp(ITD* itd) 
{ 
Uint8* pb src 
Uint8* pb mask 
Uint8 threshold 
426 Uint32 num pixels 


itd-»PbSrc; 
itd-»PbMask; 
itd-»Threshold; 
itd-»NumPixels; 


// 确保 num pixels 有 效 

if ((num pixels -- 0) || (num pixels » NUM PIXELS MAX)) 
return false; 

if ((num pixels & Ox1f) !- 0) 
return false; 


// 确保 图 像 缓 冲 区 正确 对 齐 了 

if (((uintptr t)pb src & ox1f) != 0) 
return false; 

if (((uintptr t)pb mask & Ox1f) !- 0) 
return false; 


// 用 阅 值 处 理 图 像 
for (Uint32 i = 0; i « num pixels; i++) 
*pb mask++ = (*pb_src++ > threshold) ? Oxff : 0x00; 


return true; 


} 


bool AvxPiCalcMeanCpp(ITD* itd) 

{ 
Uint8* pb_src = itd->PbSrc; 
Uint8* pb_mask = itd->PbMask; 
Uint32 num_pixels = itd->NumPixels; 


// 确保 num pixels 有 效 

if ((num pixels == 0) || (num pixels > NUM PIXELS MAX)) 
return false; 

if ((num pixels & Ox1f) != 0) 
return false; 


// 确保 图 像 缓 冲 区 正确 对 齐 了 

if (((uintptr t)pb src & ox1f) != 0) 
return false; 

if (((uintptr t)pb mask & Ox1f) !- O) 
return false; 


// 计算 掩 码 像素 均值 
Uint32 sum masked pixels 
Uint32 num masked pixels 


0; 
0; 


for (Uint32 i = 0; i « num pixels; i++) 


Uint8 mask val = *pb_mask++; 
num masked pixels += mask val & 1; 
sum masked pixels += (*pb_src++ & mask val); 
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itd->NumMaskedPixels = num_masked_pixels; 
itd->SumMaskedPixels = sum_masked_pixels; 


if (num_masked_pixels > 0) 
itd->MeanMaskedPixels = (double)sum masked pixels /~ 


num_masked_pixels; 


) 


else 
itd-»MeanMaskedPixels - -1.0; 


return true; 


void AvxPiThreshold() 


{ 


wchar t* fn src = L"..\\..\\..\\DataFiles\\TestImage2.bmp"; 
wchar t* fn maski = L" TestlImage2 Maski.bmp"; 

wchar t* fn mask2 = L" TestImage2 Mask2.bmp"; 

ImageBuffer* im src - new ImageBuffer(fn src); 

ImageBuffer* im maski - new ImageBuffer(*im src, false); 
ImageBuffer* im mask2 - new ImageBuffer(*im src, false); 
ITD itd1, itd2; 


L" 
L" 


itd1.PbSrc = (Uint8*)im_src->GetPixelBuffer(); 
itd1.PbMask = (Uint8*)im mask1->GetPixelBuffer(); 
itd1.NumPixels = im src-»GetNumPixels(); 


itd1.Threshold = TEST THRESHOLD; 


itd2.PbSrc = (Uint8*)im src-»GetPixelBuffer(); 
itd2.PbMask - (Uint8*)im mask2-»GetPixelBuffer(); 
itd2.NumPixels - im src-»GetNumPixels(); 
itd2.Threshold - TEST THRESHOLD; 


bool rci = AvxPiThresholdCpp(&itd1) ; 
bool rc2 - AvxPiThreshold (&itd2); 


if (!rci || !rc2) 


printf("Bad Threshold return code: rci-Zd, rc2=%d\n", rci, rc2); 
return; 


) 


im maski-»SaveToBitmapFile(fn mask1); 
im mask2-»SaveToBitmapFile(fn mask2); 


// 计算 掩 码 像素 均值 
rci = AvxPiCalcMeanCpp(&itd1); 
rc2 - AvxPiCalcMean (&itd2); 


if (irca || !rc2) 


printf("Bad CalcMean return code: rci-Xd, rc2=%d\n", rci, rc2); 


return; 
} 
printf("Results for AvxPackedIntegerThreshold\n\n"); 
printf(" C++ X86-AVX\n"); 
printf("-------------------------------------------- Yn"); 


printf("SumPixelsMasked: "); 
printf("%12u %12u\n", itd1.SumMaskedPixels, itd2.SumMaskedPixels); 
printf("NumPixelsMasked: "); 
printf("%12u %12u\n", itd1.NumMaskedPixels, itd2.NumMaskedPixels); 
printf("MeanPixelsMasked: "); 
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printf("%12.61f %12.61f\n", itd1.MeanMaskedPixels, e 
itd2.MeanMaskedPixels) ; 


delete im_src; 
delete im_mask1; 
delete im_mask2; 


} 
int _tmain(int argc, _TCHAR* argv[]) 
{ 
try 
AvxPiThreshold(); 
AvxPiThresholdTimed(); 
) 
catch (...) 
printf("Unexpected exception has occurred!Wn"); 
printf("File: Xs ( tmain) in", FILE ); 
} 
return 0; 
} 


清单 15-10 AvxPackedIntegerThreshold_.asm 


.model flat,c 
extern NUM PIXELS MAX:dword 


; 图 像 闪 值 数 据 结构 ( 见 AvxPackedIntegerThreshold.h) 
ITD struct 


PbSrc dword ? 

PbMask dword ? 

NumPixels dword ? 

Threshold byte ? 

Pad byte 3 dup(?) 

NumMaskedPixels dword ? 

SumMaskedPixels dword ? 

MeanMaskedPixels real8 ? 

ITD ends 

; 为 常量 准备 的 用 户 自 定义 段 

ItConstVals segment readonly align(32) public 
PixelScale byte 32 dup(80h) ;从 uint8 转换 为 Int8 的 调节 值 
R8 MinusOne real8 -1.0 ;无 效 的 均值 


ItConstVals ends 
.Code 


; extern "C" bool AvxPiThreshold (ITD* itd); 


; 描述 : 本 函数 对 8 位 灰 度 图 像 进行 图 像 阔 值 计算 
; 返回 : 0 = 无 效 的 大 小 或 者 图 像 缓 冲 区 没有 对 齐 
i 1 = 成 功 


> 需要 ;AVX2 


AvxPiThreshold proc 
push ebp 
mov ebp,esp 


# 1S Ž 
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push esi 
push edi 


; 加 载 并 验证 ITD 结构 中 的 参数 值 
mov edx, [ebp+8] 
Xor eax,eax 
mov ecx, [edx«ITD.NumPixels] 
test ecx,ecx 
jz Done 
cmp ecx,[NUM PIXELS MAX] 
ja Done 
test ecx,1fh 
jnz Done 
shr ecx,5 


mov esi, [edx«ITD.PbSrc] 
test esi,1fh 

jnz Done 

mov edi, [edx«ITD.PbMask] 
test edi,1fh 

jnz Done 


; 初始 化 组 合 阔 值 


vpbroadcastb ymmO,[edx-ITD.Threshold] ;ymm0 
vmovdqa ymm7,ymmword ptr [PixelScale] ;ymm7 


vpsubb ymm2,ymmo,ymm7 


; 创建 掩 码 图 像 

QQ: vmovdga ymmO,ymmword ptr [esi] 
vpsubb ymmi, ymmo, ymm7 
vpcmpgtb ymm3,ymmi,ymm2 
vmovdqa ymmword ptr [edi],ymm3 


add esi,32 
add edi,32 
dec ecx 
jnz eB 
mov eax,1 


Done: pop edi 

pop esi 

pop ebp 

ret 
AvxPiThreshold endp 


; Marco AvxPiCalcMeanUpdateSums 
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;edx = 'itd' 

;设置 错误 返回 码 

;ecx = NumPixels 

;如 果 num pixels == 0 则 跳 转 
;如 果 num. pixels 太 大 则 跳 转 


;如 果 num pixels X 32 !- 0 则 跳 转 
;ecx = 组 合 像素 数目 


;esi = PbSrc 


;未 对 齐 则 跳 转 
jedi = PbMask 


;未 对 齐 则 跳 转 
AS aie 


uint8 转换 为 int8 
;ymm1 = CPAPA 


;加 载 下 一 个 组 合 像素 
;ymm1 = 已 调节 图 像 像素 
;与 阅 值 比较 
;保存 组 合 阅 值 掩 码 


;重复 直到 完成 
;设置 返回 码 


; 描述 :下面 定义 的 宏 ， 其 功能 是 更 新 ymm4 中 的 sum_masked_pixels。 为 了 


; 防止 溢出 ， 它 会 对 中 间 值 进行 必要 的 复位 


; SORAR: 


ymm3:ymm2 = 组 合 字 sum masked pixels 
ymm4 = 组 合 双 字 sum_masked_pixels 


j 

j 

; ymm7 = ASO 
3 

; 临时 寄存 器 : 

; ymmo, ymmi, ymm5, ymm6 
AvxPiCalcMeanUpdateSums macro 


; 转换 组 合 字 sum masked pixels 为 双 字 
vpunpcklwd ymmo, ymm2 , ymm7 
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vpunpcklwd ymm1, ymm3, ymm7 
vpunpckhwd ymm5, ymm2 , ymm7 
vpunpckhwd ymm6 ,ymm3 , ymm7 


; 更 新 sum masked pixels 中 的 组 合 双 字 和 
vpaddd ymmo, ymmo, ymm1 
vpaddd ymm5,ymm5 , ymm6 
vpaddd ymm4, ymm4, ymmo 
vpaddd ymm4, ymm4, ymm5 


; 重 置 中 间 值 
xor edx,edx ; 重 置 更 新 计数 器 
vpxor ymm2,ymm2,ymm2 ;8 8 sum masked pixels 低位 部 分 
vpxor ymm3,ymm3,ymm3 738 S sum masked pixels 高 位 部 分 
endm 


; extern "C" bool AvxPiCalcMean (ITD* itd); 


; 描述 ， 本 函数 计算 所 有 高 于 阅 值 的 图 像 像 素 的 均值 ， 使 用 的 掩 码 由 函数 
AvxPiThreshold_ 创建 


; BE: 0 = 无 效 的 图 像 大 小 或 图 像 缓冲 区 未 对 齐 
“1 =m 


, 
5 
» 
, 
3 
», 
> 
3 


; 需要 ; AVX2, POPCNT 


AvxPiCalcMean proc 


push ebp 
mov ebp,esp 
push ebx 
push esi 
push edi 
; 加 载 并 验证 ITD 结构 中 的 参数 值 
mov eax, [ebp+8] ;eax = 'itd' 
mov ecx, [eax«ITD.NumPixels] ;ecx = NumPixels 
test ecx,ecx 
jz Error ;如 果 num pixels == 0 则 跳 转 
cmp ecx,[NUM PIXELS MAX] 
ja Error ;如 果 num pixels 太 大 则 跳 转 
test ecx,1fh 
jnz Error ;如 果 num pixels % 32 != 0 则 跳 转 
shr ecx,5 jecx = 组 合 像素 数目 
mov edi, [eax+ITD.PbMask ] jedi = PbMask 
test edi,ifh 
jnz Error ;如 果 PbMask 没有 对 齐 则 跳 转 
mov esi,[eax«ITD.PbSrc] ;esi = PbSrc 
test esi,1fh 
jnz Error ;如 果 PbSrc 没有 对 齐 则 跳 转 
; 初始 化 均值 计算 的 参数 值 
xor edx,edx ;edx = 更 新 计数 器 
vpxor ymm],ymm],ymm7 ;ymm7 = 组 合 0 
vmovdqa ymm2,ymm7 ;ymm2 = sum masked pixels (16 X) 
vmovdqa ymm3,ymm7 ;ymm3 = sum masked pixels (16 = ) 
vmovdqa ymm4, ymm7 ;ymm4 = sum masked pixels (8 XXX) 


xor ebx,ebx ;ebx = num masked pixels (1X) 


; 处 理 循环 中 的 寄存 器 使 用 
; esi = PbSrc, edi = PbMask, eax = 机 动 使 用 的 寄存 器 
; ebx = num pixels masked, ecx = NumPixels / 32, edx = 更 新 计数 器 
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; ymm0 = 组 合 像素 ymm = AAA 


; ymm3:ymm2 = sum masked pixels (32 €) 
= sum masked pixels (8 MF) 


; ymm4 


; ymm5 = 机 动 使 用 的 寄存 器 


> ymm7 


@@: 


; ymm6 = 机动 使 用 的 寄存 器 
; ymm7 = 组 合 0 


vmovdqa ymm0,ymmword ptr [esi] 
vmovdqa ymmi,ymmword ptr [edi] 


; = mum masked pixels 


vpmovmskb eax,ymmi 
popcnt eax,eax 
add ebx,eax 


; 更 新 sum masked pixels ( X1) 
vpand ymm6, ymmo, ymm1 ;设置 非 掩 码 像素 为 0 


vpunpcklbw ymmo, ymm6 , ymm7 
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?加载 下 一 个 组 合 像素 
;加 载 下 一 个 组 合 掩 码 


vpunpckhbw ymm1,ymm6,ymm7 ;ymm1:ymm0 = 掩 码 像素 ( 字 ) 


vpaddw ymm2,ymm2,ymmo 


vpaddw ymm3 , ymm3 , ymm1 ;ymm3:ymm2 = sum masked pixels 


; 检查 xmm4 中 的 双 字 sum masked pixels 和 ebx 中 的 num masked pixels 
; 是 否 有 必要 更 新 


inc edx 

cmp edx,255 

jb NoUpdate 
AvxPiCalcMeanUpdateSums 


NoUpdate: 


add esi,32 
add edi,32 
dec ecx 
jnz 8B 


;重复 循环 直到 完成 


; 主 处 理 循环 已 经 完成 。 如 果 有 必要 ， 最 后 更 新 xmm4 中 的 sum masked pixels 和 
; ebx 中 的 num masked pixels 


test edx,edx 
jz @F 
AvxPiCalcMeanUpdateSums 


; 计算 并 保存 最 后 的 sum masked pixels fl num masked pixels 


@@: 


vextracti128 xmmo,ymm4,1 
vpaddd xmm1, xmmo, xmm4 
vphaddd xmm2,xmm1, xmm7 
vphaddd xmm3,xmm2, xmm7 
vmovd edx,xmm3 


mov eax, [ebp+8] 
mov [eax+ITD.SumMaskedPixels ], edx 
mov [eax+ITD.NumMaskedPixels ], ebx 


; 计算 掩 码 像素 均值 


NoMean: 


test ebx,ebx 

jz NoMean 

vcvtsi2sd xmmo,xmmo,edx 
vcvtsi2sd xmm1, xmm1, ebx 
vdivsd xmmo,xmmo,xmm1 
jmp GF 

vmovsd xmmo, [R8 MinusOne] 


;edx = 最 后 的 sum mask pixels 


;eax - 'itd' 
;保存 最 后 的 sum masked pixels 
;保存 最 后 的 num_masked_pixels 


;num_mask_pixels 是 否 为 0? 
; 如果 是 ， 跳 过 计算 均值 
;Xmm0 = sum masked pixels 
;Xmm1 = num masked pixels 
;xmmO = mean masked pixels 


;没有 均值 时 ,使 用 -1.0 


vmovsd [eax+ITD.MeanMaskedPixels],xmm0 ;保存 均值 


mov eax,1 


;设置 返回 码 
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vzeroupper 


Done: pop edi 
pop esi 
pop ebx 
pop ebp 
ret 


Error: xor eax,eax ;设置 错误 返回 码 
jmp Done 
AvxPiCalcMean — endp 
` end 


示例 程序 AvxPackedIntegerThreshold ( 见 清 单 15-8 和 清单 15-9 ) 和 SsePackedInteger- 
Threshold 的 C++ 代码 差不多 相同 。 其 中 最 显著 的 区 别 是 num pixels 值 的 检测 部 分 ， 不 同 于 
AvxPiThresholdCpp 和 AvxPiCalcMeanCpp 中 的 16 倍 的 整数 倍 检测 ， 现 在 是 进行 32 倍 的 整 

434] 数 倍 检测 。 这 些 函 数 也 对 源 图 像 缓 冲 区 和 目的 图 像 缓 冲 区 进行 了 32 字 节 边界 对 齐 的 检查 。 
汇编 语言 文件 AvxPackedIntegerThreshold .asm ( 见 清 单 15-10 ) 中 包含 了 一 些 值 得 详细 
讨论 的 修改 。 最 明显 的 区 别 是 ，x86-SSE 执行 时 使 用 的 是 XMM 寄存 器 ， 而 x86-AVX 版 本 
用 YMM 寄存 器 进行 了 替代 。 这 意味 着 新 的 算法 可 以 处 理 32 个 像素 的 块 ， 而 不 是 16 个 像素 
的 块 。x86-AVX 版 本 使 用 的 指令 也 不 被 SSSE3 支持 (SSSE3 是 一 种 x86-SSE 级 指令 集 ， 常 
用 在 编码 原始 图 像 贱 值 和 平均 值 计 算 算法 中 )。 气 数 定义 了 一 个 定制 的 内 存 段 ItConstVals, 
与 上 节 中 程序 类 似 ， 是 为 了 便于 对 256 位 宽 的 常量 值 PixelScale 进行 正确 的 边界 对 齐 。 

相 比 于 x86-SSE 的 版 本 ，AvxPiThreshold 函数 有 几 个 小 的 改动 。 其 一 为 结构 成 员 
NumPixels 的 值 ， 从 整除 16 检测 变 为 了 整除 32 检测 ; 其 二 为 对 源 图 像 缓 冲 区 PbSrc 和 目标 
图 像 缓 冲 区 PbDes 的 边界 对 齐 检测 ， 变 成 了 32 字 节 对 齐 检 测 ; 其 三 为 替换 了 指令 vpshufb, 
使 用 vpbroadcastb ymm0, [edx+ITD.Threshold] 创建 组 合 阔 值 。 

在 原来 的 x86-SSE 版 本 中 ， 包 含 一 个 私有 了 肾 数 SsePiCalcMeanUpdateSums， 其 作用 为 
定期 更 新 算法 中 的 双 字 中 间 值 像素 和 以 及 像素 计数 。x86-AVX 版 本 的 实现 算法 中 ， 相 应 的 
AvxPiCalcMeanUpdateSums 使 用 宏 的 方式 执行 ， 这 样 做 所 需 的 处 理 器 时 间 更 少 。 减 少 处 理 
器 需求 的 主要 原因 是 统计 掩 码 像素 的 方法 更 高 效 。 

函数 AvxPiCalcMean 也 包括 上 述 的 NumPixels 和 图 像 缓 冲 区 的 大 小 和 对 齐 检 查 ， 主 
处 理 循 环 中 使 用 vpmovmskb All popent 指令 计算 掩 码 像素 的 数目 。 这 些 变 化 消除 了 一 对 数 
据 传输 指令 ， 简 化 了 AvxPiCalcMeanUpdateSums 宏 的 编程 。 如 图 15-5 所 示 ， 在 主 处 理 循 
环 之 后 ,使 用 了 指令 vextracti128 计算 最 终 的 SumMaskedPixels 值 。 最 后 一 个 改变 是 调用 
vcvtsi2sd 指令 ， 此 指令 需要 两 个 源 操作 数 。 与 所 有 其 他 x86-AVX 标量 双 精 度 浮 点 指令 一 样 ， 
第 一 个 源 操作 数 的 高 四 字 部 分 会 被 复制 到 目标 操作 数 的 高 四 字 部 分 。 第 二 个 源 操作 数 包含 的 
有 符号 整 型 数 会 被 转换 为 双 精 度 浮 点 数 ， 结 果 保 存 到 目标 操作 数 的 低 四 字 部 分 。 输 出 15-4 

显示 了 示例 程序 AvxPackedIntegerThreshold 的 执行 结果 。 


输出 15-4 示例 程序 AvxPackedlntegerThreshold 
Results for AvxPackedIntegerThreshold 


SumPixelsMasked: 23813043 23813043 
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NumPixelsMasked: 138220 138220 
MeanPixelsMasked: 172.283628 172.283628 


Benchmark times saved to file — AvxPackedImageThresholdTimed.csv 


初始 化 SumMaskedPixels 值 (8 双 字 长 ) 


1200 | 520 | 750 210 | 425 | 1475 | 330 940 ymm4 


vextractil28 xmm0,ymm4,1 


| 0 0 0 | 1200 520 750 210 ymm0 


vpaddd xmm1,xmm0,xmm4 


0 0 0 0 1625 1995 1080 | 1150 | ymml 


vphaddd xmm2,xmm1,xmm7 


| 0. 0 0 0 3620 2230 | ymm2 


vphaddd xmm3,xmm2,xmm7 


vmovd edx,xmm3 
5850 edx 


Al 15-5 计算 最 终 SumMaskedPixels 值 的 指令 序列 
注意 : 寄存 器 XMM7 包含 全 0 数据 
































X 15-2 给 出 了 阅 值 算法 的 C+t+ 和 x86-AVX 汇编 语言 版 本 的 运行 时 间 测 量 数据 。x86- 


SSE 实现 算法 的 时 间 测 量 数据 见 表 10-2。 436 
表 15-2 使 用 Testlmage2.bmp 图 像 阅 值 算法 的 平均 执行 时 间 (单位 : 微 秒 ) 
CPU C++ x86-AVX x86-SSE 
Intel Core 17-4770 518 39 49 
Intel Core i7-4600U 627 50 60 


15.3 总结 

本 章 演示 了 如 何 使 用 x86-AVX 的 组 合 整 型 能 力 。 我 们 学 习 了 如 何 对 256 位 宽 组 合 整 型 
操作 数 执行 各 种 基本 运算 ， 并 通过 两 个 示例 程序 演示 了 如 何 使 用 x86-AVX 指令 集 实 现 通 用 
的 图 像 处 理 算法 。 在 本 章 以 及 前 两 章 的 例子 中 ， 我们 集中 讨论 了 处 理 组 合 整 型 、 组 合 浮 点 和 
标量 浮 点 操作 数 时 x86-SSE 和 x86-AVX 的 差异 。 在 下 一 章 中 ， 我 们 将 学 习 AVX2 引入 的 一 |” 
些 新 指令 以 及 随 之 引入 的 扩展 特性 。 438 





第 16 章 | 


Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


x86-AV X 编程 一 一 新 指令 


通过 前 面 三 章 ， 我们 学 习 了 如 何 使 用 x86-AVX 指令 集 操作 标量 浮 点 数 、 组 合 浮 点 数 和 

合 整 数 。 本 章 将 讲解 x86-AVX 的 一 些 新 编程 特性 。 我 们 将 从 一 个 示例 程序 开始 ， 说 明 如 
" 使 用 cpuid 指令 确定 处 理 器 是 否 支持 x86-SSE、x86-AVX 或 者 特定 的 子 功能 扩展 。 接 着 通 

一 系列 示例 程序 ， 演 示 x86-AVX 的 高 级 数据 操作 指令 。 本 章 的 最 后 一 节 将 描述 x86 的 一 
Mec edis 令 。 


16.1 检测 处 理 器 特性 (CPUID ) 


在 编写 软件 时 ， 当 使 用 x86 处 理 器 功能 扩展 如 x86-SSE、x86-AVX 或 某 个 增强 的 指令 
组 时 ， 永 远 不 要 通过 处 理 器 的 微 架 构 、 型 号 或 品牌 名 称 来 判断 是 否 可 用 ， 而 应 该 总 是 使 用 
cpuid (CPU Identification) 指令 来 测试 期 望 的 功能 扩展 是 否 可 用 。 本 节 的 示例 程序 AvxCpuid 
演示 了 如 何 使 用 这 个 指令 来 检测 特定 处 理 器 的 扩展 功能 。 清 单 16-1 和 清单 16-2 分 别 列 出 了 
示例 程序 的 C++ 和 汇编 语言 的 源 代 码 。 


清单 16-1 AvxCpuid.cpp 


#include "stdafx.h" 
#include "MiscDefs.h" 
#include «memory.h» 


/ 该 结构 用 来 存储 cpuid 指令 的 结果 。 它 必须 和 AvxCpuid .asm 中 定义 的 结构 一 致 
typedef struct 


Uint32 EAX; 

Uint32 EBX; 

Uint32 ECX; 

Uint32 EDX; 
} CpuidRegs; 


// 该 结构 包含 了 本 书 用 到 的 cpuid 支持 的 特性 标志 
typedef struct 
{ 


// 基本 信息 
Uint32 MaxEAX; // cpuid 支持 的 最 大 EAX 值 
char VendorId[13]; // 处 理 器 供应 商 ID 字符 串 


// 处 理 器 特性 标志 。 如 果 特 性 扩展 或 者 指令 组 可 用 ， 则 设置 为 真 
bool SSE; 
bool SSE2; 
bool SSE3; 
bool SSSE3; 
bool SSE4 1; 
bool SSE4 2; 
bool AVX; 
bool AVX2; 
bool F16C; 
bool FMA; 
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bool POPCNT; 
bool BMI1; 
bool BMI2; 
bool LZCNT; 
bool MOVBE; 


// 0S 是 否 启 用 某 特 性 的 信息 

bool OSXSAVE; // 如 果 XSAVE 3& OS 激活 则 为 真 

bool SSE STATE; // 如 果 XMM 状态 被 0S 激活 则 为 真 

bool AVX STATE; // 如 果 YMM 状态 被 OS 激活 则 为 真 
} CpuidFeatures; 


extern "C" Uint32 Cpuid (Uint32 r eax, Uint32 r ecx, CpuidRegs* out); 
extern "C" void Xgetbv (Uint32 r ecx, Uint32* r eax, Uint32* r edx); 


// 该 函数 不 能 在 较 旧型 号 的 CPU 上 工作 ， 尤 其 是 那些 2006 年 之 前 生产 的 。 该 函数 只 用 
// Windows 7 (SP1) 和 Windows 8.1 测 试 过 


void GetCpuidFeatures(CpuidFeatures* cf) 


{ 
CpuidRegs r_out; 


memset(cf, 0, sizeof(CpuidFeatures)); 


// 获得 MaxEAX 和 Vendor ID 

Cpuid (0, 0, &r out); 

Cf-»MaxEAX = r out.EAX; 

*(Uint32 *)(cf-»VendorId + 0) = r out.EBX; 
*(Uint32 *)(cf->VendorId + 4) = r out.EDX; 
*(Uint32 *)(cf-»VendorId + 8) = r out.ECX; 
cf->VendorId[12] = '\o'; 


// 处 理 器 太 老 则 退出 
if (cf-»MaxEAX « 10) 
return; 


// 获取 CPUID. O1H 特性 标志 

Cpuid (1, 0, &r out); 

Uint32 cpuidO1 ecx = r out.ECX; 
Uint32 cpuidO1 edx - r out.EDX; 


// 获取 CPUID ( EAX-07H, ECX-00H ) 特性 标志 
Cpuid (7, 0, &r out); 
Uint32 cpuidO7 ebx = r out.EBX; 


// CPUID.01H:EDX.SSE[bit 25] 
cf->SSE = (cpuido1_edx & (0x1 << 25)) ? true : false; 


// CPUID.01H:EDX.SSE2[bit 26] 
if (cf->SSE) 
cf->SSE2 = (cpuidoi edx & (0x1 << 26)) ? true : false; 


// CPUID.01H:ECX.SSE3[bit 0] 
if (cf->SSE2) 
cf->SSE3 = (cpuido1_ecx & (0x1 << 0)) ? true : false; 


// CPUID.01H:ECX.SSSE3[bit 9] 
if (cf->SSE3) 
Cf-»SSSE3 = (cpuid01 ecx & (0x1 << 9)) ? true : false; 


// CPUID.01H:ECX.SSE4.1[bit 19] 
if (cf->SSSE3) 
Cf-»SSE4 1 = (cpuidO1 ecx & (0x1 << 19)) ? true : false; 
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// CPUID.01H:ECX.SSE4.2[bit 20] 
if (cf->SSE4 1) 


cf->SSE4 2 = (cpuidol ecx & (0x1 << 20)) ? true : false; 


// CPUID.01H:ECX.POPCNT[bit 23] 
if (cf-»SSEA 2) 


cf->POPCNT = (cpuidOi ecx & (0x1 << 23)) ? true : false; 


// CPUID.01H:ECX.OSXSAVE[bit 27] 
cf->OSXSAVE = (cpuidO1 ecx & (0x1 << 27)) ? true : false; 


// 测试 OSXSAVE 状态 来 确定 XGETBV 是 否 启用 
if (cf-»OSXSAVE) 


{ 


) 


// 使 用 XGETBV 获取 下 列 信息 : 
// 如 果 (XCRO[1]==1 ), XSAVE 用 SSE 状态 
// 如 果 (XCRO[2]==1), XSAVE 用 AVX 状态 


Uint32 xgetbv_eax, xgetbv_edx; 

Xgetbv (0, &xgetbv_eax, &xgetbv_edx); 

cf->SSE_STATE = (xgetbv eax & (0x1 << 1)) ? true : false; 
cf->AVX_STATE = (xgetbv eax & (0x1 << 2)) ? true : false; 


// OS 支持 SSE 和 AVX 状态 信息 吗 ? 
if (cf-»SSE STATE && cf->AVX_STATE) 


{ 
// CPUID.01H:ECX.AVX[bit 28] = 1 
cf->AVX = (cpuidO1 ecx & (0x1 << 28)) ? true : false; 
if (cf->AVX) 
// CPUID.01H:ECX.F16C[bit 29] 
cf->F16C = (cpuidol ecx & (0x1 << 29)) ? true : false; 
// CPUID.01H:ECX.FMA[bit 12] 
cf->FMA = (cpuidO1 ecx & (0x1 << 12)) ? true : false; 
// CPUID.(EAX = 07H, ECX = 00H):EBX.AVX2[bit 5] 
cf->AVX2 = (cpuid07 ebx & (0x1 << 5)) ? true : false; 
} 
} 


// CPUID.(EAX = 07H, ECX = OOH):EBX.BMI1[bit 3] 
cf->BMI1 = (cpuid07 ebx & (0x1 << 3)) ? true : false; 


// CPUID.(EAX = 07H, ECX = OOH):EBX.BMI2[bit 8] 
cf->BMI2 = (cpuid07 ebx & (0x1 << 8)) ? true : false; 


// CPUID.80000001H:ECX.LZCNT[bit 5] 
Cpuid (0x80000001, 0, &r out); 
Cf-»LZCNT = (r out.ECX & (0x1 << 5)) ? true : false; 


// 获取 MOVBE 
// CPUID.01H:ECX.MOVBE[bit 22] 
cf->MOVBE = cpuidO1 ecx & (0x1 << 22) ? true : false; 


int _tmain(int argc, _TCHAR* argv[]) 


{ 


CpuidFeatures cf; 
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GetCpuidFeatures(&cf); 
printf("Results for AvxCpuid n"); 


printf("MaxEAX: 


printf("VendorId: 


printf("SSE: 
printf("SSE2: 
printf("SSE3: 
printf("SSSE3: 
printf("SSE4 1: 
printf("SSE4 2: 
printf ("POPCNT: 
printf("AVX: 
printf("F16C: 
printf("FMA: 
printf("AVX2: 
printf("BMI1 
printf ("BMI2 
printf("LZCNT 
printf ("MOVBE 
printf("\n"); 
printf("OSXSAVE 


%d\n", 
%s\n", 
%d\n", 
%d\n", 
%d\n", 
%d\n", 
%d\n", 
%d\n", 
%d\n", 
%d\n", 
%d\n", 
%d\n", 
%d\n", 
%d\n", 
AdNn" , 
%d\n" 
%d\n" , 


AdNn", 


printf("SSE STATE %d\n", 
printf("AVX STATE %d\n", 


return 0; 


.model flat,c 


cf.MaxEAX) ; 
cf.VendorId); 
cf.SSE); 
cf.SSE2); 
cf.SSE3); 
cf.SSSE3); 
cf.SSE4 1); 
cf.SSE4 2); 
cf. POPCNT); 
cf.AVX); 
cf.F16C); 
cf.FMA); 
cf.AVX2); 
cf.BMI1); 
cf.BMI2); 
cf.LZCNT); 
cf.MOVBE) ; 


cf.OSXSAVE) ; 
cf.SSE STATE); 
cf.AVX STATE); 


清单 16-2 AvxCpuid .asm 


; 该 结构 必须 和 AvxCpuid.cpp 中 定义 的 结构 一 致 


CpuidRegs struct 


RegEAX dword ? 
RegEBX dword ? 
RegECX dword ? 
RegEDX dword ? 


CpuidRegs ends 


; extern "C" Uint32 Cpuid (Uint32 r eax, Uint32 r ecx, CpuidRegs* r out); 


2 


; 描述 : 下 面 的 函数 使 用 CPUID 指令 来 查询 处 理 器 标记 和 特性 信息 


.code 


返回 值 : eax--0 不 支持 的 CPUID 叶子 


eax!-0 支持 的 CPUID 叶子 


仅 在 r_eax<=MaxEAX 时 ， 返 回 值 才 有 意义 


j 

5 

> 

j 

; 

Cpuid_ proc 
push ebp 
mov ebp,esp 
push ebx 
push esi 


; RA eax 和 ecx 值 ,然后 使 用 cpuid 


mov eax, [ebp+8] 


mov ecx, [ebp+12] 


cpuid 
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BEL NNI 
; 保存 结果 


mov esi, [ebp+16] 

mov [esi«CpuidRegs.RegEAX],eax 
mov [esi+CpuidRegs.RegEBX],ebx 
mov [esi+CpuidRegs.RegECX],ecx 
mov [esi«CpuidRegs.RegEDX], edx 


; 测试 CPUID 叶子 是 否 支持 该 功能 
or eax,ebx 
Or ecx,edx 
or eax,ecx jeax= 返回 值 
pop esi 
pop ebx 


pop ebp 
ret 
Cpuid endp 


; extern "C" void Xgetbv (Uint32 r ecx, Uint32* r eax, Uint32* r edx); 
; 描述 : 下 面 的 函数 使 用 XGETBV 指令 来 获取 rn. ecx 指定 的 扩展 控制 寄存 器 的 内 容 
; 注意 ; 如 果 r_ecx 不 合法 或 者 XSAVE 没有 被 启用 ， 则 会 发 生 一 个 处 理 器 异常 


Xgetbv proc 
push ebp 
mov ebp,esp 


mov ecx, [ebp+8] ;ecx = 扩展 控制 寄存 器 
xgetbv 


mov ecx, [ebp«12] 


mov [ecx],eax ;保存 结果 ( 低 双 字 值 ) 


mov ecx, [ebp+16] 


mov [ecx],edx ;保存 结果 ( 高 双 字 值 ) 


pop ebp 
ret 

Xgetbv endp 
end 


阅读 源 代 码 之 前 ， 你 需要 了 解 cpuid 指令 是 如 何 工 作 的 。 使 用 这 个 指令 之 前 ， 必 须 向 寄 
存 器 EAX 装载 特定 叶子 (leaf) 值 ， 指 定 cpuid 指令 应 该 返回 什么 类 型 的 信息 。 根 据 EAX 不 
同 的 功能 值 ， 可 能 会 需要 装载 次 级 叶子 或 子叶 子 (sub-leaf) f$] ECX 寄存 器 内 。cpuid 指令 
向 通过 寄存 顺 EAX, EBX, ECX 和 EDX 返回 结果 。 本 节 的 示例 程序 重点 关注 通过 cpuid 指 
令 检测 书 中 涉及 的 体系 结构 特性 和 指令 组 。 如 果 你 有 兴趣 学 习 如 何 使 用 cpuid 指令 识别 其 他 
的 处 理 需 特性 和 硬件 功能 ， 可 以 参考 附录 C 中 列 出 的 Intel 或 AMD 参考 手册 和 操作 说 明 书 。 

AvxCpuid.cpp 文件 顶部 声明 了 两 个 C++ 结构 (参见 清单 16-1 )。 第 一 个 结构 名 为 
CpuidRegs， 用 于 保存 cpuid 指令 返回 的 结果 。 第 二 个 名 为 CpuidFeatures 的 结构 包含 各 种 标 
志 ， 表 明 是 否 支 持 某 个 特定 的 处 理 器 特性 。 

结构 声明 后 面 是 两 个 汇编 语言 函数 Cpuid_ 和 Xgetbv 的 声明 ， 分 别 用 于 执行 cpuid 和 
xgetbv 指令 (取得 扩展 控制 寄存 器 的 值 )。 

国 数 GetCpuidFeatures 中 ， 语 句 Cpuid (0,0,&r out) 获取 cpuid 指令 支持 的 最 大 EAX 
值 。Cpuid_ 的 前 两 个 参数 用 来 在 执行 cpuid 指令 前 初始 化 寄存 器 EAX 和 ECX ; 第 三 个 参 
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数 指定 一 个 CpuidRegs 结构 ， 以 保存 cpuid 返回 的 结果 。 请 注意 ， 在 函数 GetCpuidFeatures 
中 ， 除 非 EAX 等 于 7， 否 则 cpuid 指令 将 忽略 ECX 的 值 。 在 Cpuid_iK FIA, r_out.EAX 保 
存 了 cpuid 指令 所 支持 的 最 大 EAX fH, Tir out.EBX, r out.ECX fil r_out.EDX 则 组 成 了 三 
家 的 标识 字符 串 。 所 有 这 些 值 都 保存 到 了 指定 的 CpuidFeatures 结构 。 

为 了 保证 剩 下 的 逻辑 合理 ， 在 检测 到 运行 于 一 个 老 处 理 器 时 ，GetCpuidFeatures ph BYE 
终止 。 接 着 ， 函 数 Cpuid_ 被 调用 两 次 ， 以 获得 必要 的 cpuid 功能 状态 标志 。 与 x86-SSE 有 
关 的 cpuid 状态 标志 被 解码 并 保存 。 

应 用 程序 只 有 在 处 理 器 和 它 的 主机 操作 系统 都 支持 的 情况 下 才能 使 用 x86-AVX 指令 集 
的 计算 资源 。 处 理 器 的 OSXSAVE 标志 指示 操作 系统 在 任务 切换 时 是 否 保存 x86-AVX 的 状 
态 信息 。OSXSAVE 标志 为 真 也 表明 其 可 以 放心 地 使 用 xgetbv 指令 判断 操作 系统 是 否 支 持 
XMM 和 YMM 寄存 器 。 一 旦 这 些 信息 确定 ，GetCpuidFeatures 函数 继续 解码 cpuid， 获 得 
x86-AVX 及 其 相关 功能 扩展 的 标志 状态 。 它 还 确定 几 个 需要 操作 系统 支持 的 x86-AVX 指令 
组 的 可 用 性 。 

AvxCpuid .asm 文件 的 顶部 是 汇编 语言 版 本 的 CpuidRegs 结构 ( 见 清单 16-2). PK% 
Cpuid 的 代码 很 直观 : 加 载 EAX 寄存 器 和 ECX 寄存 器 提供 的 参数 值 ， 执 行 cpuid 指令 ， 并 
将 结果 保存 在 内 存 中 指定 的 位 置 。 注 意 ， 如 果 EAX 提供 的 叶子 值 是 无 效 的 ， 并 且 小 于 或 等 
于 处 理 器 支持 的 最 大 叶子 值 ，cpuid 指令 将 返回 0 值 到 EAX、EBX、ECX 和 EDX. 

函数 Xgetbv 的 代码 也 很 简单 。 然 而 ， 需 要 注意 的 是 ， 如 果 r_ecx 指定 的 扩展 控制 寄存 
器 无 效 ， 或 者 处 理 器 的 OSXSAVE 状态 标志 设置 为 false， 处 理 器 将 产生 一 个 异常 。 这 就 解 
释 了 为 什么 在 C++ 函数 GetCpuidFeatures 中 ， 调 用 Xgetbv_ 前 要 测试 OSXSAVE 标志 。 表 
16-1 总 结 了 在 几 种 不 同 的 处 理 器 上 运行 AvxCpuid 示例 程序 得 到 的 结果 。 


表 16-1 示例 程序 AvxCpuid 的 运行 结果 汇总 

特性 E6700 Q9650 i3-2310M i7-4600U i7-4770 
最 大 EAX 值 10 13 13 13 13 
厂商 标识 Genuinelntel Genuinelntel Genuinelntel Genuinelntel Genuinelntel 
SSE 1 1 1 1 1 
SSE2 
SSE3 
SSSE3 
SSE4 1 
SSE4 2 
POPCNT 
AVX 
F16C 
FMA 
AVX2 
BMII 
BMI2 
LZCNT 


1 
1 
1 
1 
1 
1 
1 
0 
0 
0 
0 
0 
0 
MOVBE 0 
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16.2 ”数据 操作 指令 

x86-AVX 包括 各 种 增强 的 数据 操作 指令 ， 既 可 用 于 组 合 浮 点 数 ， 也 可 用 于 组 合 整 型 操 
作 数 。 这 些 指令 中 ,许多 是 替代 现 有 某 个 x86-SSE 指令 或 一 段 指令 序列 。 增 强 的 数据 处 理 包 
括 广播 、 混 合 、 排 列 和 收集 操作 。 本 节 将 通过 示例 代码 演示 每 组 典型 指令 的 用 法 。 


16.2.1 


数据 广播 


第 一 个 示例 程序 AvxBroadcast 将 演示 如 何 使 用 x86-AVX 的 整数 和 浮 点 数 广播 指令 。 
播 指令 将 单个 数据 值 复 制 到 目标 操作 数 的 每 个 元 素 。 这 些 指令 通常 用 于 创建 组 合 常量 值 。 
PA 16-3 和 清单 16-4 分 别 列 出 了 示例 程序 AvxBroadcast 的 C++ 和 汇编 语言 源 代码 。 


i85 16-3 AvxBroadcast.cpp 


#include "stdafx.h" 
#include "XmmVal.h" 
#include "YmmVal.h" 
#include «memory.h» 
#tdefine USE MATH DEFINES 
#include «math.h» 


// 下 面 这 个 enum 值 的 顺序 ， 必 须 和 AvxBroadcast_.asm 中 定义 的 一 致 


enum Brop : unsigned int 


IE 


Byte, Word, Dword, Oword 


extern "C" void AvxBroadcastIntegerYmm (YmmVal* des, const XmmVal* src, Brop op); 
extern "C" void AvxBroadcastFloat (YmmVal* des, float val); 
extern "C" void AvxBroadcastDouble (YmmVal* des, double val); 


void AvxBroadcastInteger(void) 


{ 


} 


char buff[512]; 
. declspec(align(16)) XmmVal src; 
. declspec(align(32)) YmmVal des; 


memset(&src, O, sizeof(XmmVal)); 


src.i16[0] = 42; 
AvxBroadcastIntegerYmm (&des, &src, Brop::Word); 


printf("\nResults for AvxBroadcastInteger() - Brop::Wordin"); 
printf("src . Xs Wn", src.ToString ii6(buff, sizeof(buff))); 
printf("des lo %s\n", des.ToString i16(buff, sizeof(buff), false)); 
printf("des hi %s\n", des.ToString i16(buff, sizeof(buff), true)); 


src.i64[0] = -80; 
AvxBroadcastIntegerYmm (&des, &src, Brop::Oword); 


printf("\nResults for AvxBroadcastInteger() - Brop::Qword\n"); 
printf("src: %s\n", src.ToString i64(buff, sizeof(buff))); 
printf("des lo: %s\n", des.ToString i64(buff, sizeof(buff), false)); 
printf("des hi: %s\n", des.ToString i64(buff, sizeof(buff), true)); 


void AvxBroadcastFloatingPoint(void) 


{ 


char buff[512]; 


p 
清 
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. declspec(align(32)) YmmVal des; 


AvxBroadcastFloat (&des, (float)M SORT2); 

printf("\nResults for AvxBroadcastFloatingPoint() - float\n"); 
printf("des lo: %s\n", des.ToString r32(buff, sizeof(buff), false)); 
printf("des hi: %s\n", des.ToString r32(buff, sizeof(buff), true)); 


AvxBroadcastDouble (&des, M PI); 

printf("\nResults for AvxBroadcastFloatingPoint() - double n"); 
printf("des lo: %s\n", des.ToString r64(buff, sizeof(buff), false)); 
printf("des hi: %s\n", des.ToString r64(buff, sizeof(buff), true)); 


} 

int _tmain(int argc, _TCHAR* argv[]) 

{ 
AvxBroadcastInteger(); 
AvxBroadcastFloatingPoint(); 
return 0; 

} 


清单 16-4 AvxBroadcast_.asm 


.model flat,c 
.Code 


; extern "C" void AvxBroadcastIntegerYmm (YmmVal* des, const XmmVal* src, 
Brop op); 


; 描述 ; 下 面 的 函数 展示 了 vpbroadcastX 指令 的 用 法 
; mE. AVX2 
AvxBroadcastIntegerYmm proc 

push ebp 


mov ebp,esp 


; 确保 op 是 合法 的 


mov eax, [ebp+16] ;eax = op 

cmp eax,BropTableCount 

jae BadOp ;如 果 op 不 合法 则 跳 转 
; 载 入 参数 并 跳 转 到 指定 的 指令 

mov ecx, [ebp+8] ;ecx = des 

mov edx, [ebp+12] ;edx = src 


vmovdqa xmmO,xmmword ptr [edx] ;xmm0= 广播 值 ( 低 项 ) 
mov edx, [BropTable+eax*4] 
jmp edx 


; 执行 字 节 广播 

BropByte: 
vpbroadcastb ymm1,xmmO 
vmovdqa ymmword ptr [ecx],ymmi 
vzeroupper 
pop ebp 
ret 


; 执行 字 广 播 

BropWord: 
vpbroadcastw ymmi,xmmo 
vmovdqa ymmword ptr [ecx],ymmi 
vzeroupper 


了 16 


pop ebp 
ret 


; 执行 双 字 广播 
BropDword: 
vpbroadcastd ymmi,xmmo 
vmovdqa ymmword ptr [ecx],ymm1 
vzeroupper 
pop ebp 
ret 


; 执行 四 字 广 播 
BropOword: 
vpbroadcastq ymmi,xmmo 
vmovdqa ymmword ptr [ecx],ymmi 
vzeroupper 
pop ebp 
ret 


BadOp: pop ebp 
ret 


; 下 表 定 义 的 数值 ， 必 须 和 AvxBroadcast.cpp 中 定义 的 enum Brop — E 


align 4 
BropTable dword BropByte, BropWord, BropDword, BropQword 
BropTableCount equ ($ - BropTable) / size dword 
AvxBroadcastIntegerYmm endp 


; extern "C" void AvxBroadcastFloat (YmmVal* des, float val); 
j 

; 描述 : 下 面 的 函数 展示 了 vbroadcastss 指令 的 用 法 

j 

; 需要 : AVX 


AvxBroadcastFloat_ proc 
push ebp 
mov ebp,esp 


; 广播 val 到 des 的 所 有 元 素 
mov eax, [ebp+8] 
vbroadcastss ymmo,real4 ptr [ebp+12] 
vmovaps ymmword ptr [eax], ymmo 


vzeroupper 


pop ebp 
ret 
AvxBroadcastFloat endp 


; extern "C" void AvxBroadcastDouble (YmmVal* des, double val); 
; 描述 ， 下 面 的 函数 展示 了 vbroadcastsd 指令 的 用 法 

: 需要 : AVX 

AvxBroadcastDouble proc 


push ebp 
mov ebp,esp 


; 广播 val 到 des 的 所 有 元 素 


mov eax, [ebp+8] 
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vbroadcastsd ymmo,real8 ptr [ebp+12] 
vmovapd ymmword ptr [eax],ymmo 


vzeroupper 

pop ebp 

ret 
AvxBroadcastDouble  endp 

end 


AvxBroadcast.cpp 的 C+ 文件 包括 两 个 函数 ， 分 别 用 来 初始 化 整 型 和 浮 点 型 广播 操作 的 
测试 用 例 (参见 清单 16-3 ) 。 第 一 个 函数 AvxBroadcastInteger 调用 汇编 语言 图 数 AvxBroad- 
castInteger 来 演示 针对 字 和 四 字 的 整数 广播 。 第 二 个 函数 AvxBroadcastFloat 使 用 两 个 汇编 语 
言 函数 展示 针对 单 精 度 和 双 精 度 浮 点 值 的 广播 操作 。 

汇编 语言 文件 AvxBroadcast .asm 包含 的 函数 执行 实际 的 广播 操作 (参见 清单 16-4 ) 。 
名 为 AvxBroadcastInteger 的 函数 演示 了 vpbroadcast (b| w| d| q) ( 字 节 、 字 、 双 字 和 四 字 ) 

§ 令 的 使 用 。 这 些 指令 的 源 操作 数 必须 是 XMM 寄存 器 (低位 的 元 素 ) 或 一 个 内 存 地 址 。 目 
标 操作 数 可 以 是 一 个 XMM 或 YMM 寄存 器 。 除 了 vpbroadcast (b| w| d| q) 指令 ，x86-AVX 
指令 集 还 包括 一 个 vbroadcasti128 指令 ， 用 于 从 一 个 内 存 地 址 广播 128 位 整 型 数 到 YMM 寄 
存 器 的 低 128 位 和 高 128 位 。 

PK XX AvxBroadcastFloat 和 AvxBroadcastDouble 演示 了 如 何 使 用 vbroadcastss 和 
vbroadcastsd (广播 浮 点 数据 ) 指令 。 这 些 指 令 的 源 操作 数 必须 是 一 个 内 存 地 址 或 一 个 XMM 
affine. TER, AVX2 需要 和 XMM 源 操作 数 使 用 这 些 指令 。vbroadcastss 指令 的 目标 操作 
数 可 以 是 XMM 或 YMM 寄存 器 ; vbroadcastsd 指令 的 目标 操作 数 必 须 是 一 个 YMM 寄存 器 。 
x86-AVX 指令 集 还 支持 一 个 128 位 浮 点 数 广播 指令 ， 名 为 vbroadcastf128。 输 出 16-1 显示 
示例 程序 AvxBroadcast 的 运行 结果 。 


输出 16-1 示例 程序 AvxBroadcast 
Results for AvxBroadcastInteger() - Brop::Word 


SIC 42 0 0 0 | 0 0 0 0 
des lo 42 42 42 42 | 42 42 42 42 
des hi 42 42 42 42 | 42 42 42 42 
Results for AvxBroadcastInteger() - Brop::Qword 

SIC: -80 | 0 

des lo: -80 | -80 

des hi: -80 | -80 


Results for AvxBroadcastFloatingPoint() - float 
des lo: 1.414214 1.414214 | 1.414214 1.414214 
des hi: 1.414214 1.414214 | 1.414214 1.414214 


Results for AvxBroadcastFloatingPoint() - double 


des lo: 3.141592653590 | 3.141592653590 
des hi: 3.141592653590 | 3.141592653590 


16.2.2 数据 混合 


数据 混合 操作 有 条 件 地 复制 两 个 组 合 源 操作 数 到 一 个 目标 组 合 操作 数 ， 并 使 用 控制 值 指 
定 哪 个 元 素 被 复制 。 下 一 个 示例 程序 AvxBlend 演示 了 如 何 使 用 两 条 x86-AVX 混合 指令 操作 
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组 合 浮 点 数 和 组 合 整数 。 清 单 16-5 和 清单 16-6 分 别 列 出 了 示例 程序 AvxBlend 的 C++ AIL 
编 语言 的 源 代码 。 


清单 16-5 AvxBlend.cpp 


#include "stdafx.h" 
#include "YmmVal.h" 


extern "C" void AvxBlendFloat (YmmVal* des, YmmVal* srci, YmmVal* src2,~ 
YmmVal* src3); 
extern "C" void AvxBlendByte (YmmVal* des, YmmVal* srci, YmmVal* src2,~ 
YmmVal* src3); 


void AvxBlendFloat(void) 


( 
char buff[256]; 
const Uint32 selecti - 0x00000000; 
const Uint32 select2 - 0x80000000; 
. declspec(align(32)) YmmVal des, srci, src2, src3; 
srci.r32[0] = 100.0f; src2.r32[0] - -1000.0f; 
srci.r32[1] = 200.0f; src2.r32[1] - -2000.0f; 
src1.r32[2] = 300.0f; src2.r32[2] = -3000.0f; 
srci.r32[3] = 400.0f; src2.r32[3] = -4000.0f; 
srci.r32[4] = 500.0f; src2.132[4] = -5000.0f; 
srci.r32[5] = 600.0f; src2.r32[5] - -6000.0f; 
srci.r32[6] = 700.0f; src2.r32[6] - -7000.0f; 
src1.r32[7] = 800.0f; src2.r32[7] - -8000.0f; 
src3.u32[0] = select2; 
src3.u32[1] = select2; 
src3.u32[2] = selecti; 
src3.u32[3] = select2; 
src3.u32[4] = select1; 
src3.u32[5] = select1; 
src3.u32[6] - select2; 
src3.u32[7] = select1; 
AvxBlendFloat_(&des, &srci, &src2, &src3); 
printf("\nResults for AvxBlendFloat() |n"); 
printf("srci lo: %s\n", srci.ToString r32(buff, sizeof(buff), false)); 
printf("srci hi: %s\n", srci.ToString r32(buff, sizeof(buff), true)); 
printf("src2 lo: %s\n", src2.ToString r32(buff, sizeof(buff), false)); 
printf("src2 hi: %s\n", src2.ToString r32(buff, sizeof(buff), true)); 
printf("\n"); 
printf("src3 lo: %s\n", src3.ToString x32(buff, sizeof(buff), false)); 
printf("src3 hi: %s\n", src3.ToString x32(buff, sizeof(buff), true)); 
printf("\n"); 
printf("des lo: %s\n", des.ToString r32(buff, sizeof(buff), false)); 
printf("des hi: %s\n", des.ToString r32(buff,.sizeof(buff), true)); 
} 
void AvxBlendByte(void) 
{ 


char buff[256]; 
. declspec(align(32)) YmmVal des, srci, src2, src3; 


// 使 用 vpblendvb 指令 执行 双 字 混合 时 ， 需 要 用 到 控制 值 
const Uint32 selecti = 0x00000000; // select srci 
const Uint32 select2 - 0x80808080; // select src2 
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srci.i32[0] = 100; 
src1.i32[1] = 200; 
src1.i32[2] = 300; 
src1.i32[3] = 400; 
src1.i32[4] = 500; 
src1.i32[5] = 600; 
src1.i32[6] = 700; 
src1.i32[7] = 800; 
src3.u32[0] = selecti; 
src3.u32[1] = selecti; 
src3.u32[2] = select2; 
src3.u32[3] = selecti; 
src3.u32[4] = select2; 
src3.u32[5] = select2; 
src3.u32[6] = selecti; 


src3.u32[7] = select2; 
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src2.i32[0] = -1000; 
src2.i32[1] = -2000; 
src2.i32[2] - -3000; 
src2.i32[3] = -4000; 
src2.i32[4] = -5000; 
src2.i32[5] = -6000; 
src2.i3a2[6] = -7000; 


src2.i32[7] - -8000; 


AvxBlendByte (&des, &srci, &src2, &src3); 


3 


printf("\nResults for AvxBlendByte() - doublewords\n"); 


printf("srci lo: %s\n", 
printf("srci hi: %s\n", 
printf("src2 lo: %s\n", 
printf("src2 hi: %s\n", 
printf("\n"); 

printf("src3 lo: %s\n", 
printf("src3 hi: %s\n", 
printf("\n"); 

printf("des lo: %s\n", 
printf("des hi: %s\n", 


srci.ToString i3a2(buff, 
srci.ToString i32(buff, 
src2.ToString i32(buff, 
src2.ToString i32(buff, 


src3.ToString x32(buff, 
src3.ToString x32(buff, 


des.ToString i32(buff, 
des.ToString i32(buff, 


} 
int _tmain(int argc, _TCHAR* argv[]) 
{ 
AvxBlendFloat(); 
AvxBlendByte() ; 
return 0; 
} 


.model flat,c 
.code 


sizeof(buff), false)); 
sizeof(buff), true)); 
sizeof(buff), false)); 
sizeof(buff), true)); 


sizeof(buff), false)); 
sizeof(buff), true)); 


sizeof(buff), false)); 
sizeof(buff), true)); 


清单 16-6 AvxBlend .asm 


; extern "C" void AvxBlendFloat (YmmVal* des, YmmVal* srci, YmmVal* src2,~ 


YmmVal* src3); 


; 描述 。 该 函数 演示 使 用 YMM 寄存 器 的 vblendvps 指令 的 用 法 


; 需要 : avx 


AvxBlendFloat proc 
push ebp 
mov ebp,esp 


; 载 入 参数 
mov eax, [ebp+12] 
mov ecx, [ebp+16] 
mov edx, [ebp+20] 


;eax 
;ecx 
;edx 


vmovaps ymmi,ymmword ptr [eax] ;ymmi = 


ptr to srci 
ptr to src2 
ptr to src3 


srci 
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src2 
SIC3 


vmovaps ymm2,ymmword ptr [ecx] ;ymm2 
vmovdqa ymm3,ymmword ptr [edx] ;ymm3 


; 执行 可 变 单 精度 浮 点 数 混合 
vblendvps ymmo,ymm1,ymm2,ymm3 ;ymm0 = 混合 结果 
mov eax, [ebp+8] 
vmovaps ymmword ptr [eax], ymmo ;保存 混合 结果 


"ow 


vzeroupper 
pop ebp 
ret 
AvxBlendFloat endp 


; extern "C" void AvxBlendByte (YmmVal* des, YmmVal* srci, YmmVal* src2,« 
YmmVal* src3); 


; 描述 : 该 函数 演示 了 vpblendvb 指令 的 用 法 
; 需要 : AVX2 
AvxBlendByte proc 


push ebp 
mov ebp,esp 


; 载 入 参数 
mov eax, [ebp+12] ;eax = ptr to srci 
mov ecx, [ebp+16] ;ecx = ptr to src2 
mov edx, [ebp+20] ;edx = ptr to src3 
vmovdqa ymmi,ymmword ptr [eax] ;ymmi - srci 
vmovdqa ymm2,ymmword ptr [ecx] ;ymm2 = src2 
vmovdqa ymm3,ymmword ptr [edx] ;ymm3 = src3 

; 执行 可 变 字 节 混合 
vpblendvb ymmo, ymmi,ymm2,ymm3 ;ymm0 = 混合 结果 
mov eax, [ebp+8] 
vmovdqa ymmword ptr [eax], ymmo ;保存 混合 结果 
vzeroupper 
pop ebp 
ret 

AvxBlendByte  endp 
end 


AvxBlend.cpp 的 C++ 文件 包含 一 个 函数 AvxBlendFloat， 它 用 单 精度 浮 点 值 初始 化 
YmmVal 变量 srcl 和 src2 (参见 清单 16-5 ) 。 它 还 初始 化 了 名 为 src3 的 第 三 个 YmmVal 实 
例 ， 用 作 混 合 控制 值 。 src3 中 高 位 双 字 元 素 的 每 一 位 ， 指 定 了 相应 的 元 素 是 从 srcl1( 高 位 为 0 ) 
还 是 src2 (高 位 为 1 ) 复制 到 目标 操作 数 。vblendvps (Variable Blend Packed Single-Precision 
Floating-Point Values， 可 变 混合 组 合 型 单 精 度 浮 点 数 ) 指令 使 用 这 三 个 源 操作 数 ， 在 汇编 语 
A PAX AvxBlendFloat 中 被 执行 。 执 行 这 个 函数 后 ， 有 一 系列 的 printf 语句 来 显示 结果 。 

AvxBlend.cpp 文件 还 包含 一 个 函数 AvxBlendInt32， 它 初始 化 YmmVal 变量 srcl 和 
src2， 展 示 了 组 合 双 字 整数 的 混合 操作 。 该 函数 也 使 用 了 第 三 个 源 操 作 数 来 指定 哪个 源 操作 
数 的 元 素 被 复制 到 目标 操作 数 。 变 量 srcl src2 和 src3 最 终 被 vpblendvb ( Variable Blend 
Packed Byte， 可 变 混合 组 合 型 字 节 ) 指令 使 用 ， 该 指令 在 汇编 语言 函数 AvxBlendInt32 中 。 

AvxBlendFloat 函数 (参见 清单 16-6) 首先 将 参数 srcl src2 和 src3 分 别 加 载 到 寄存 
fit YMMI, YMM2 和 YMM3。 然 后 执行 vblendvps ymm0，ymml，ymm2，ymm3 指令 做 


x86-AVX 4& € — Pda 321 





浮 点 数 的 混合 操作 ， 结 果 如 图 16-1 所 示 。vblendvps 指令 及 其 对 应 的 双 精 度 vblendvpd 指令 ， 
是 要 求 三 个 源 操作 数 的 x86-AVX 指令 的 例子 。vblendps 和 vblendpd 指令 可 以 使 用 一 个 立即 
控制 数 进行 浮 点 数 混合 操作 。 


vblendvps ymm0,ymm1 At ens 





iki YMMG 寄存 器 的 每 个 双 字 都 是 十 六 进 制 数值 。 
图 16-1 vblendvps 指令 的 执行 


x86-AVX 包括 几 个 可 以 用 来 进行 整数 混合 操作 的 指令 。vpblendw ( Blend Packed Word， 
混合 组 合 型 字 ) 和 vpblendd (Blend Packed Dword, PARCARE) 指令 分 别 对 字 和 双 
字 执 行 组 合 整 型 数 混合 操作 。 这 两 个 指令 都 需要 一 个 8 位 立即 操作 数 来 指定 混合 操作 的 控 
制 值 。 

x86-AVX 指令 集 还 包括 vpblendvb 指令 ， 它 使 用 一 个 可 变 控 制 值 来 混合 字 节 。 
指令 使 用 第 三 个 源 操 作 数 每 个 字 节 的 高 位 ， 从 前 两 个 源 操 作 数 中 选择 一 个 字 节 。 ae 
一 个 合适 的 控制 值 ，vpblendvb 指令 也 可 以 用 来 混合 字 、 双 字 和 四 字 。 例 如 ， 为 了 混合 双 
字 ，AvxBlendInt32 函数 (参见 清单 16-6) 使 用 控制 值 0x00000000 或 0x80808080， 分 
别 从 第 一 个 或 第 二 个 源 操作 数 选择 一 个 双 字 元 素 。 输 出 16-2 包含 示例 程序 AvxBlend 的 
结果 。 


输出 16-2 示例 程序 AvxBlend 


Results for AvxBlendFloat() 

srci lo: 100.000000 200.000000 | 300.000000 400.000000 
srci hi: 500.000000 600.000000 | 700.000000 800.000000 
src2 lo: -1000.000000 -2000.000000 | -3000.000000 -4000.000000 
src2 hi: -5000.000000 -6000.000000 | -7000.000000 -8000.000000 


src3 lo: 80000000 80000000 | 00000000 80000000 
src3 hi: 00000000 00000000 | 80000000 00000000 
des lo: -1000.000000 -2000.000000 | 300.000000 -4000.000000 
des hi: 500.000000 600.000000 | -7000.000000 800.000000 


Results for AvxBlendByte() - doublewords 


srci lo: 100 200 | 300 400 
srci hi: 500 600 | 700 800 
src2 lo: -1000 -2000 | -3000 -4000 
src2 hi: -5000 -6000 | -7000 -8000 


src3 lo: 00000000 00000000 | 80808080 00000000 
src3 hi: 80808080 80808080 | 00000000 80808080 


des lo: 100 200 | -3000 400 
des hi: -5000 -6000 | 700 -8000 
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16.2.3 ”数据 排列 


x86-AVX 指令 集 包 括 几 条 数据 排列 指令 ， 用 来 根据 一 个 控制 值 重 新 排列 组 合 型 数据 的 
元 素 。 本 节 的 示例 程序 AvxPermnute 解释 了 如 何 使 用 其 中 的 几 个 指令 。 清 单 16-7 和 清单 16-8 
展现 了 示例 程序 AvxPermnute 的 源 代 码 。 


iB 16-7 AvxPermute.cpp 


#include "stdafx.h" 
#include "YmmVal.h" 
#include «math.h» 


extern "C" void AvxPermuteInt32 (YmmVal* des, YmmVal* src, YmmVal* ind); 
extern "C" void AvxPermuteFloat (YmmVal* des, YmmVal* src, YmmVal* ind); 
extern "C" void AvxPermuteFloatIl (YmmVal* des, YmmVal* src, YmmVal* ind); 


void AvxPermuteInt32(void) 


. declspec(align(32)) YmmVal des, src, ind; 


src.i32[0] - 10; ind.i32[0] - 3; 
src.i32[1] = 20; ind.i32[1] = 7; 
src.i32[2] = 30; ind.i32[2] = 0; 
src.i32[3] = 40; ind. i32[3] = 4; 
src.i32[4] = 50; ind.i32[4] = 6; 
src.i32[5] = 60; ind.i32[5] = 6; 
src.i32[6] = 70; ind.i32[6] = 1; 
src.i32[7] = 80; ind.i32[7] = 2; 


AvxPermuteInt32_(&des, &src, &ind); 


printf("\nResults for AvxPermuteInt32()\n"); 
for (int i = 0; i < 8; ie) 


{ 
printf("des[Xd]: %5d ^", i, des.i32[i]); 
printf("ind[%d]: Xsd ", i, ind.i32[i]); 
printf("src[Xd]: %5d ^", i, src.i3a2[i]); 
printf("\n"); 

} 


} 
void AvxPermuteFloat (void) 
. declspec(align(32)) YmmVal des, src, ind; 


// srci indices must be between 0 and 7. 


src.r32[0] - 800.0f; ind.i32[0] = 3; 
src.r32[1] = 700.0f; ind.i32[1] = 7; 
src.r32[2] = 600.0f; ind.i32[2] = 0; 
src.r32[3] = 500.0f; ind.i32[3] = 4j 
src.r32[4] = 400.0f; ind.i32[4] = 6; 
src.r32[5] - 300.0f; ind.i32[5] = 6; 
src.r32[6] - 200.0f; ind.i32[6] - 1; 
src.r32[7] - 100.0f; ind.i32[7] = 2; 


AvxPermuteFloat (&des, &src, &ind); 


printf("\nResults for AvxPermuteFloat()\n"); 
for (int i = 0; i < 8; i++) 


{ 
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printf("des[Xd]: %8.1f ^", i, des.r32[i]); 
printf("ind[%d]: Xsd ^", i, ind.i32[i]); 
printf("src[Xd]: X8.1f ^", i, src.r32[i]); 
printf("\n"); 

} 

void AvxPermuteFloatI1(void) 


. declspec(align(32)) YmmVal des, src, ind; 


// 低 行 

src.r32[0] = sqrt(10.0f); ind.i32[0] = 3; 
src.r32[1] - sqrt(20.0f); ind.i32[1] = 2; 
src.r32[2] = sqrt(30.0f); ind.i32[2] = 2; 
src.r32[3] = sqrt(40.0f); ind.i32[3] = 0; 
// 高 行 

src.r32[4] = sqrt(50.0f); ind.i32[4] = 1; 
src.r32[5] = sqrt(60.0f); ind.i32[5] = 3; 
src.r32[6] - sqrt(70.0f); ind.i32[6] - 3; 
src.r32[7] = sqrt(80.0f); ind.i32[7] = 2; 


AvxPermuteFloatI1_(&des, &src, &ind); 


printf("\nResults for AvxPermuteFloatI1()\n"); 
for (int i = 0; i < 8; i++) 


{ 
if (1 == 0) 
printf("Lower lane\n"); 
else if (i == 4) 
printf("Upper lane\n"); 
printf("des[%d]: %8.4f ", i, des.r32[i]); 
printf("ind[Xd]: X5d ^", i, ind.i32[i]); 
printf("src[Xd]: X8.4f ^", i, src.r32[i]); 
printf("\n"); 
} 
} 
int tmain(int argc, TCHAR* argv[]) 
{ 
AvxPermuteInt32(); 
AvxPermuteFloat(); 
AvxPermuteFloatI1() ; 
return 0; 
} 


清单 16-8 AvxPermute_.asm 


.model flat,c 
.code 


; extern "C" void AvxPermuteInt32 (YmmVal* des, YmmVal* src, YmmVal* ind); 
; 描述 ， 该 函数 演示 了 如 何 使 用 vpermd 指令 

需要 : AVX2 

AvxPermuteInt32 proc 


push ebp 
mov ebp,esp 
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; 载 入 参数 值 
mov eax, [ebp+8] ;eax = ptr to des 
mov ecx, [ebp+12] secx = ptr to src 
mov edx, [ebp+16] ;edx = ptr to ind 

; 进行 双 字 排 列 
vmovdqa ymmi,ymmword ptr [edx] ;ymm1 = ind 
vpermd ymmo,ymmi,ymmword ptr [ecx] 
vmovdga ymmword ptr [eax],ymmo ;保存 结果 
vzeroupper 
pop ebp 
ret 


AvxPermuteInt32_ endp 

; extern "C" void AvxPermuteFloat (YmmVal* des, YmmVal* src, YmmVal* ind); 
; 描述 ， 该 函数 演示 了 如 何 使 用 vpermps 指令 

; 需要 : AVX2 


AvxPermuteFloat proc 
push ebp 
mov ebp,esp 


; 载 入 参数 值 
mov eax, [ebp+8] ;eax = ptr to des 
mov ecx, [ebp+12] 3ecx = ptr to src 
mov edx, [ebp+16] ;edx = ptr to ind 
; 进行 单 精度 浮 点 数 排列 
vmovdqa ymm1,ymmword ptr [edx] ;ymm1 = ind 
vpermps ymmO,ymm1,ymmword ptr [ecx] 
vmovaps ymmword ptr [eax], ymmo ;保存 结果 
vzeroupper 
pop ebp 
ret 


AvxPermuteFloat  endp 


; extern "C" void AvxPermuteFloatll (YmmVal* des, YmmVal* src, YmmVal* ind); 
3 
; 描述 : 该 函数 演示 了 如 何 使 用 vpermilps 指令 


3 需要 : AVX2 


AvxPermuteFloatIl proc 
push ebp 
mov ebp,esp 


; 载 入 参数 值 
mov eax, [ebp+8] ;eax = ptr to des 
mov ecx, [ebp+12] 3ecx = ptr to src 
mov edx, [ebp+16] ;edx = ptr to ind 
; 执行 行内 单 精 度 浮 点 数 排列 。 注 意 vpermilps 的 第 二 个 源 操 作 数 指定 了 索引 
vmovdqa ymmi,ymmword ptr [ecx] ;ymm1 = src 
vpermilps ymmO,ymmi,ymmword ptr [edx] 
vmovaps ymmword ptr [eax], ymmo ;save result 
vzeroupper 


pop ebp 
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ret 
AvxPermuteFloatlIl  endp 
end 





源 文件 AvxPermute.cpp (参见 清单 16-7 ) 包括 一 个 名 为 AvxPermuteInt32 的 函数 ， 它 初 
始 化 测试 用 例 来 演示 组 合 双 字 整数 的 排列 方法 。 变 量 ind 包含 了 一 组 索引 ， 指 定 src 的 哪个 
元 素 复 制 到 des。 例 如 ， 声 明 ind.i32[0]= 3 意味 着 排列 操作 应 该 执行 des.i32[0]= src.i32[3]。 
每 个 ind 索引 值 必 须 介 于 0 和 7 之 间 。ind 的 每 个 索引 可 以 使 用 多 次 ， 以 将 sre 的 一 个 元 素 找 
贝 到 des 的 多 个 位 置 。 函 数 AvxPermuteFloat 类 似 于 AvxPermuteInt32， 不 过 它 包 含 的 是 一 个 
处 理 组 合 单 精度 浮 点 数 排列 的 测试 用 例 。 

源 文件 AvxPermute.cpp 还 包含 一 个 名 为 AvxPermuteFloatIl 的 函数 ， 它 初始 化 Ymm Val 
变量 src 和 ind， 目 的 是 演示 行内 (in-lane) 排列 组 合 单 精 度 浮 点 数 。 行 内 排列 使 用 两 个 独立 
的 128 位 行 (lane) 来 完成 操作 。 行 内 排列 的 控制 索引 必须 在 0 和 3 之 间 ， 并 且 每 行 都 需要 
有 自己 的 一 组 索引 。 

汇编 语言 文件 AvxPermute .asm (参见 清单 16-8 ) 4 AvxPermutelnt32_ 和 AvxPermuteFloat_ 
PRÉC. CHE PROC [E AY x86-AVX 指令 vpermd 和 vpermps 对 组 合 双 字 整 数 和 单 精度 浮 点 数 进行 
排列 。 这 些 指 令 都 要 求 第 一 个 源 操作 数 包含 控制 索引 ， 第 二 个 源 操作 数 包含 要 排列 的 组 合 
数据 值 。AvxPermute .asm 文件 还 包含 AvxPermuteFloatll eM, "iB T £T A HEU dá 
vpermilps 的 使 用 。 注 意 ， 对 于 这 个 指令 ， 第 一 个 源 操作 数 包含 了 要 排列 的 组 合 型 数据 值 ， 
第 二 个 源 操作 数 包 含 控 制 索 引 。 输 出 16-3 展示 了 示例 程序 AvxPermute 的 运行 结果 。 


输出 16-3 示例 程序 AvxPermuteResults for AvxPermutelnt32() 
Results for AvxPermuteInt32() 





des[0]: 40 ind[0]: 3 src[0]: 10 
des[1]: 80 ind[1]: 7 src[1]: 20 
des[2]: 10 ind[2]: 0 src[2]: 30 
des[3]: 50 ind[3]: 4 src[3]: 40 
des[4]: 70 ind[4]: 6 src[4]: 50 
des[5]: 70 ind[5]: 6 src[5]: 60 
des[6]: 20 ind[6]: 1 src[6]: 70 
des[7]: 30 ind[7]: 2 src[7]: 80 
Results for AvxPermuteFloat() 

des[0]: 500.0 ind[0]: 3 src[o]: 800.0 
des[1]: 100.0 ind[1]: 7 src[1]: 700.0 
des[2]: 800.0 ind[2]: 0 src[2]: 600.0 
des[3]: 400.0 ind[3]: 4 src[3]: 500.0 
des[4]: 200.0 ind[4]: 6 src[4]: 400.0 
des[5]: 200.0 ind[5]: 6 src[5]: 300.0 
des[6]: 700.0 ind[6]: 1 src[6]: 200.0 
des[7]: 600.0 ind[7]: 2 sxzc[J7]: 100.0 


Results for AvxPermuteFloatIl() 
Lower lane 


des[0]: 6.3246 ind[o]: 3 src[0]: 3.1623 
des[1]: 5.4772 ind[1]: 2 src[1]: 4.4721 
des[2]: 5.4772 ind[2]: 2 src[2]: 5.4772 
des[3]: 3.1623 ind[3]: 0 src[3]: 6.3246 


Upper lane 

des[4]: 7.7460 ind[4]: 
des[5]: 8.9443 ind[s]: 
des[6]: 8.9443 ind[6]: 
des[7]: 8.3666 ind[7]: 


src[4]: 7.0711 
src[5]: 7.7460 
src[6]: 8.3666 
src[7]: 8.9443 
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16.2.4 数据 收集 


本 节 的 最 后 一 个 示例 程序 AvxGather 将 演示 x86-AVX 数据 收集 指令 的 使 用 方法 。 收 


集 指令 有 条 件 地 从 一 个 内 存 数组 拷贝 元 素 到 XMM 或 YMM 寄存 器 。 收 集 指 令 需 要 一 组 索 
引 和 一 个 控制 掩 码 ， 指 定 拷贝 数组 中 的 哪些 元 素 。 清 单 16-9 和 清单 16-10 给 出 了 示例 程序 


AvxGather 的 C++ 和 汇编 语言 源 代 码 。 


清单 16-9 AvxGather.cpp 


#include "stdafx.h" 
#include "XmmVal.h" 
#include "YmmVal.h" 
#include <stdlib.h> 


extern "C" void AvxGatherFloat (YmmVal* des, YmmVal* indices, YmmVal* mask, = 
const float* x); 
extern "C" void AvxGatherlI64 (YmmVal* des, XmmVal* indices, YmmVal* mask, = 
const Int64* x); 


void AvxGatherFloatPrint(const char* msg, YmmVal& des, YmmVal& indices, 
YmmVal& mask) 


{ 
printf("\n%s\n", msg); 
for (int i = 0; i < 8; i++) 
{ 
printf("ElementID: Xd ", i); 
printf("des: %8.1f ^", des.r32[i]); 
printf("indices: X4d ^", indices.i32[i]); 
printf("mask: Ox%08X\n", mask.i32[i]); 
) 
) 


void AvxGatherl64Print(const char* msg, YmmVal& des, XmmVal& indices, = 
YmmVal& mask) 


{ 
printf("\n%s\n", msg); 
for (int i = 0; i < 4; i++) 
{ 
printf("ElementID: %d ", i); 
printf("des: %8lld ^", des.i64[i]); 
printf("indices: X4d ", indices.i32[i]); 
printf("mask: 0x%01611X\n", mask.i64[i]); 
) 
) 
void AvxGatherFloat(void) 
( 


const int merge no - 0; 

const int merge yes - 0x80000000; 
const int n = 15; 

float x[n]; 

. declspec(align(32)) YmmVal des; 

. declspec(align(32)) YmmVal indices; 
. declspec(align(32)) YmmVal mask; 


// 初始 化 测试 数组 
srand(22); 
for (int i = 0; i < n; i++) 
x[i] = (float)(rand() % 1000); 
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) 


// 初始 化 des 
for (int i = 0; i < 8; i++) 
des.r32[i] = -1.0f; 


// 初始 化 索引 


indices.i32[0] = 2; 
indices.i32[1] = 1; 
indices.i32[2] - 6; 
indices.i32[3] = 5; 
indices.i32[4] = 4; 
indices.i32[5] - 13; 
indices.i32[6] = 11; 
indices.i32[7] = 9; 


// 初始 化 掩 码 值 
mask.i32[0] = merge yes; 
mask.i32[1] = merge yes; 
mask.i32[2] = merge no; 
mask.i32[3] = merge yes; 
mask.i32[4] = merge yes; 
mask.i32[5] - merge no; 
mask.i32[6] - merge yes; 
mask.i32[7] = merge yes; 


printf("\nResults for AvxGatherFloat()\n"); 

printf("Test array\n"); 

for (int i = 0; i < n; i++) 
printf("x[X02d]: %6.1f\n", i, x[i]); 

printf("\n"); 


const char* s1 
const char* s2 


AvxGatherFloatPrint(s1, des, indices, mask); 
AvxGatherFloat (&des, &indices, &mask, x); 
AvxGatherFloatPrint(s2, des, indices, mask); 


void AvxGatherl64(void) 


{ 


const Int64 merge no = 0; 

const Int64 merge yes - 0x8000000000000000LL; 
const int n = 15; 

Int64 x[n]; 

. declspec(align(32)) YmmVal des; 

. declspec(align(16)) XmmVal indices; 

. declspec(align(32)) YmmVal mask; 


// 初始 化 测试 数组 
srand(36); 
for (int i = 0; i < n; ie) 
x[i] = (Int64)(rand() % 1000); 


// 初始 化 des 
for (int i = 0; i < 4; i+) 
des.i64[i] = -1; 


// 初始 化 索引 和 掩 码 
indices.i32[0] = 2; 
indices.i32[1] = 7; 
indices.i32[2] = 9; 
indices.i32[3] = 


"Values BEFORE call to AvxGatherFloat ()"; 
"Values AFTER call to AvxGatherFloat ()"; 
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mask.i64[0] = merge yes; 
mask.i64[1] = merge yes; 
mask.i64[2] = merge no; 

mask.i64[3] = merge yes; 


M 


printf("\nResults for AvxGatherl64()Wn") 

printf("Test array\n"); 

for (int i = 0; i < n; ie) 
printf("x[%02d]: %8lld\n", i, x[i]); 

printf("\n"); 

const char* s1 = "Values BEFORE call to 

const char* s2 


[D 


, 


AvxGatherl64 ()"; 


"Values AFTER call to AvxGatherI64 ()"; 


AvxGatherl64Print(s1, des, indices, mask); 


AvxGatherl64 (&des, &indices, &mask, x); 


AvxGather164Print(s2, des, indices, mask); 


int tmain(int argc, TCHAR* argv[]) 


AvxGatherFloat(); 
AvxGatherI64(); 
return 0; 


清单 16-10 AvxGather .asm 


.model flat,c 
.code 


; extern "C" void AvxGatherFloat (YmmVal* des, YmmVal* indices, YmmVal*= 


mask, const float* x); 
; 描述 。 本 函数 演示 了 如 何 使 用 vgatherdps 指令 
; 需要 : AVX2 
AvxGatherFloat proc 
push ebp 


mov ebp,esp 
push ebx 


; 载 入 参数 值 。 执 行 指令 vgatherdps Bj, des 的 内 容 被 装载 到 ymm0， 用 来 演示 控制 掩 码 的 条 件 作 用 


mov eax, [ebp+8] 
mov ebx, [ebp+12] 
mov ecx, [ebp+16] 
mov edx, [ebp«20] 
vmovaps ymmO,ymmword ptr [eax] 
vmovdqa ymm1,ymmword ptr [ebx] 
vmovdqa ymm2,ymmword ptr [ecx] 


; 进行 收集 操作 并 保存 结果 
vgatherdps ymmo, [edx«ymm1*4], ymm2 
vmovaps ymmword ptr [eax],ymmo 
vmovdqa ymmword ptr [ebx],ymmi 
vmovdqa ymmword ptr [ecx],ymm2 


vzeroupper 
pop ebx 
pop ebp 


jeax = 指向 des 

;ebx = 指向 索引 

;ecx = 指向 掩 码 

;edx = 指向 x 

;ymm0 = des ( 初始 值 ) 
;ymm1 = 索引 

;ymm2 = 掩 码 


;ymm0 = 收集 的 元 素 
;保存 des 

;保存 索引 (KE) 
;保存 掩 码 (全 部 为 0 ) 
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ret 
AvxGatherFloat  endp 
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; extern "C" void AvxGatherl64 (YmmVal* des, XmmVal* indices, YmmVal* mask, = 


const Int64* x); 


; 描述 : 本 函数 演示 了 如 何 使 用 vpgatherdq 指令 


; 需要 : AVX2 467 
AvxGatherI64 proc 
push ebp 
mov ebp,esp 
push ebx 
; 载 入 参数 值 。 注 意 索 引 被 载 入 XMM1 寄存 器 
mov eax, [ebp+8] ;eax = 指向 des 
mov ebx, [ebp+12] ;ebx = 指向 索引 
mov ecx, [ebp+16] jecx = 指向 掩 码 
mov edx, [ebp+20] ;edx = 指向 x 
vmovdqa ymmO,ymmword ptr [eax] ;ymm0 = des (初始 值 ) 
vmovdga xmmi,xmmword ptr [ebx] ;xmmi- 索引 
vmovdqa ymm2,ymmword ptr [ecx] ;ymm2= #843 
; 进行 收集 并 保存 结果 。 注 意 比例 因子 和 收集 的 元 素数 目 是 一 致 的 
vpgatherdq ymm0, [edx+xmm1*8],ymm2 ^ ;ymmO = 收集 的 元 素 
vmovdqa ymmword ptr [eax],ymmo ;保存 des 
vmovdqa xmmword ptr [ebx],xmmi ;保存 索引 CAE) 
vmovdqa ymmword ptr [ecx],ymm2 ;保存 掩 码 ( 全 部 为 0) 
vzeroupper 
pop ebx 
pop ebp 
ret 
AvxGatherI64_ endp 
end 
第 12 章 概要 介绍 了 x86-AVX 的 数据 收集 指令 ， 其 中 图 12-4 展示 了 收集 指令 的 执行 过 
程 。 在 阅读 本 节 的 示例 代码 和 备注 之 前 ， 阅 读 前 面 的 介绍 会 有 所 帮助 。 
C++ 文件 AvxGathercpp (参见 清单 16-9 ) 包含 一 个 名 为 AvxGatherFloat 的 函数 ， 它 初 
始 化 一 个 测试 用 例 来 演示 vgatherdps (Gather Packed SPFP Values Using Signed Dword Index， 
用 有 符号 双 字 索引 收集 组 合 型 单 精度 浮 点 数 ) 指令 的 使 用 方法 。 这 个 函数 首先 初始 化 一 个 单 
精度 浮 点 数组 ， 用 作 vgatherdps 指令 的 源 数 组 。 然 后 加 载 必 要 的 数组 索引 到 YmmVal， 作 为 
实例 索引 。 注 意 ， 索 引 中 的 值 被 视 为 有 符号 整数 。 接 下 来 ，YmmVal 变量 被 初始 化 为 掩 码 ， 
以 选择 哪些 值 从 源 数组 复制 到 目标 数组 。 文 件 AvxGather.cpp 还 包括 一 个 名 为 AvxGatherI64 
的 函数 。 该 函数 准备 了 一 个 测试 数组 、 一 组 索引 以 及 一 个 控制 掩 码 ， 以 演示 vpgatherdq 
(Gather Packed Qword Values Using Signed Dword Index， 用 有 符号 双 字 索引 收集 组 合 型 四 字 ) 
指令 的 用 法 。 
清单 16-10 是 示例 程序 AvxGather 的 汇编 语言 源 代 码 。AvxGatherFloat_ 函数 分 别 加 载 
des、 索 引 和 掩 码 到 YMM0、YMMI1 和 YMM2。 它 也 装 人 一 个 指向 源 数组 的 变量 x 到 寄存 
器 EDX. 468 


4 & vgatherdps ymm0, [EDX+ ymm1*4], ymm2 执行 实际 的 收集 操作 。 注 意 ，VSIB 
操作 数 使 用 的 比例 因子 为 4， 表 示 源 数组 中 的 每 个 元 素 大 小 为 4 字 节 。 比 例 因子 也 定义 
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了 控制 掩 码 中 元 素 的 大 小 。 在 收集 指令 中 使 用 不 正确 的 比例 因子 会 产生 无 效 的 返回 结果 。 
vgatherdps 指令 执行 后 ， 寄 存 器 YMM0、YMM1、YMM2 分 别 保存 des, RIME. E 
编 语言 函数 AvxGatherl64 的 功能 类 似 于 AvxGatherFloat PAM. LAARA, TEX 
注意 的 区 别 是 ， 前 者 使 用 XMMI 寄存 器 保存 索引 。 指 令 vpgatherdq ymm0,[edx + xmml * 
8],ymm2 使 用 的 比例 因子 为 8， 因为 该 指令 从 源 数 组 中 采集 四 字 值 。 

输出 16-4 显示 了 示例 程序 AvxGather 的 运行 结果 。x86-AVX 收集 指令 在 一 些 特殊 情况 
下 会 修改 包含 控制 掩 码 的 源 操作 数 寄存 器 。 在 输出 中 对 此 进行 了 说 明 。 如 果 收 集 指令 执行 完 
成 没有 导致 处 理 器 异常 ， 那 么 其 控制 掩 码 寄存 器 将 被 设置 为 全 零 。 


输出 16-4 “示例 程序 AvxGather 
Results for AvxGatherFloat() 


Test array 

x[00]: 110.0 
x[01]: 808.0 
x[02]: 34.0 
x[03]: 542.0 
x[04]: 399.0 
x[05]: 649.0 
x[06]: 303.0 
x[07]: 653.0 
x[08]:. 257.0 
x[09]: 427.0 
x[10]: 599.0 
x[11]: 70.0 
x[12]: 446.0 
x[13]: 852.0 
x[14]: 245.0 


Values BEFORE call to AvxGatherFloat () 


ElementID: O des: -1.0 indices: 2 mask: Ox80000000 
ElementID: 1 des: -1.0 indices: 1 mask: Ox80000000 
ElementID: 2 des: -1.0 indices: 6 mask: 0x00000000 
ElementID: 3 des: -1.0 indices: 5 mask: 0x80000000 
ElementID: 4 des: -1.0 indices: 4 mask: 0x80000000 
ElementID: 5 des: -1.0 indices: 13 mask: 0x00000000 
ElementID: 6 des: -1.0 indices: 11 mask: 0x80000000 
ElementID: 7 des: -1.0 indices: 9 mask: Ox80000000 
Values AFTER call to AvxGatherFloat () 

ElementID: O des: 34.0 indices: 2 mask: Ox00000000 
ElementID: 1 des: 808.0 indices: 1 mask: Ox00000000 
ElementID: 2 des: -1.0 indices: 6 mask: 0x00000000 
ElementID: 3 des: 649.0 indices: 5 mask: 0x00000000 
ElementID: 4 des: 399.0 indices: 4 mask: 0x00000000 
ElementID: 5 des: -1.0 indices: 13 mask: Ox00000000 
ElementID: 6 des: 70.0 indices: 11 mask: 0x00000000 
ElementID: 7 des: 427.0 indices: 9 mask: 0x00000000 


Results for AvxGatherI64() 


Test array 

x[00]: 156 
x[01]: 446 
x[02]: 988 
x[03]: 748 
x[04]: 731 
x[05]: 87 


x[06]: 109 
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x[o7]: 207 
x[08]: 43 
x[09]: 890 
x[10]: 528 
x[11]: 686 
x[12]: 710 
x[13]: 125 
x[14]: 255 


Values BEFORE call to AvxGatherI64 () 


ElementID: O des: -1 indices: 2 mask: 0x8000000000000000 
ElementID: 1 des: -1 indices: 7 mask: 0x8000000000000000 
ElementID: 2 des: -1 indices: 9 mask: 0x0000000000000000 
ElementID: 3 des: -1 indices: 12 mask: 0x8000000000000000 
Values AFTER call to AvxGatherIl64 () 

ElementID: O des: 988 indices: 2 mask: 0x0000000000000000 
ElementID: 1 des: 207 indices: 7 mask: 0x0000000000000000 
ElementID: 2 des: -1 indices: 9 mask: 0x0000000000000000 
ElementID: 3 des: 710 indices: 12 mask: 0x0000000000000000 


16.3 ”融合 乘 加 编程 


融合 乘 加 (Fused-Multiply-Add) 运算 在 各 种 算法 领域 都 有 广泛 应 用 ， 比 如 计算 机 图 形 
学 和 信号 处 理 。 本 节 的 示例 程序 AvxFma 演示 了 如 何 使 用 FMA 指令 实现 常见 的 信号 处 理 算 
法 。 清 单 16-11 和 清单 16-12 分 别 给 出 示例 程序 AvxFma 的 C++ 和 汇编 语言 源 代 码 。 


清单 16-11 AvxFma.cpp 


#include "stdafx.h" 
#include "AvxFma.h" 
#include <stdio.h> 
#include <malloc.h> 
ildefine USE MATH DEFINES 
#Hinclude «math.h» 
#include <stdlib.h> 


bool AvxFmaInitX(float* x, Uint32 n) 

( 
const float degtorad - (float)(M PI / 180.0); 
const float t start - 0; 
const float t step - 0.002f; 
const Uint32 m = 3; 
const float amp[m] = (1.0f, 0.80f, 1.20f}; 
const float freq[m] = (5.0f, 10.0f, 15.0f); 
const float phase[m] = (0.0f, 45.0f, 90.0f}; 
float t - t start; 


srand(97); 
for (Uint32 i = 0; i < n; i++, t += t step) 


{ 
float x_total 


0; 
for (Uint32 j = 0; j « m j++) 
float omega = 2.0f * (float)M PI * freq[j]; 


float x tempi = amp[j] * sin(omega * t + phase[j] * degtorad); 
float noise = (float)((rand() % 300) - 150) / 10.0f; 
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float x temp2 = x tempi + x tempi * noise / 100.0f; 
x total += x temp2; 
) 
x[i] » x total; 
return true; 
} 
void AvxFmaSmoothSCpp(float* y, const float*x, Uint32 n, const float*= 
sm5 mask) 
{ 


} 


for (Uint32 i = 2; i < n - 2; i++) 


float sum = 0; 


sum += x[i - 2] 
sum += x[i - 1] 
sum += x[i + 0] 
sum += x[i + 1] 
sum += x[i + 2] 
yli] = sum; 


sm5 mask[0]; 
sm5 mask[1]; 
sm5 mask[2]; 
sm5 mask[3]; 
sm5 mask[4]; 


4 o X X* * 


void AvxFma(void) 


const Uint32 n - 512; 

float* x - (float*) aligned malloc(n * sizeof(float), 32); 

float* y cpp - (float*) aligned malloc(n * sizeof(float), 32); 
float* y a - (float*) aligned malloc(n * sizeof(float), 32); 

float* y b - (float*) aligned malloc(n * sizeof(float), 32); 

float* y c - (float*) aligned malloc(n * sizeof(float), 32); 

const float sm5 mask[] - ( 0.0625f, 0.25f, 0.375f, 0.25f, 0.0625f ); 


printf("Results for AvxFma\n"); 


if (!AvxFmaInitX(x, n)) 

{ 
printf("Data initialization failed\n"); 
return; 


} 


AvxFmaSmooth5Cpp(y_cpp, x, n, sm5 mask); 
AvxFmaSmoothsa (y a, x, n, sm5 mask); 
AvxFmaSmoothsb (y b, x, n, sm5 mask); 
AvxFmaSmoothsb (y c, x, n, sm5 mask); 


FILE* fp; 
const char* fn - 


. AvxFmaRawData.csv"; 
if (fopen s(&fp, fn, "wt") !- 0) 
{ 
printf("File open failed (%s)\n", fn); 


return; 


) 


fprintf(fp, "i, x, y cpp ya, y b; y c, "); 
fprintf(fp, "diff ab, diff ac, diff bcn"); 
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Uint32 num_diff_ab = 0, num_diff_ac = 0, num_diff_bc = 0; 


for (Uint32 i = 2; i < n - 2; i++) 


{ 
bool diff_ab = false, diff_ac = false, diff_bc = false; 
if (y a[i] != y b[i]) 
( 
diff ab - true; 
num diff abe; 
) 
d (y_ali] != y c[i]) 
diff_ac = true; 
num diff ace; 
) 
E (y b[i] != y c[i]) 
diff bc - true; 
num diff bc++; 
) 
const char* fs1 = "%15.8f, "; 
fprintf(fp, "%4d, ", i); 
fprintf(fp, fs1, x[i]); 
fprintf(fp, fs1, y cpp[i]); 
fprintf(fp, fs1, y a[i]); 
fprintf(fp, fs1, y b[i]); 
fprintf(fp, fs1, y c[i]); 
fprintf(fp, "Xd, Xd, Xd, ", diff ab, diff ac, diff bc); 
fprintf(fp, "\n"); 
} 
fclose(fp); 


printf("\nRaw data saved to file %s\n", fn); 
printf("\nNumber of data point differences between\n"); 
printf(" y a and y b: %u\n", num diff ab); 
printf(" y a and y c: %u\n", num diff ac); 
printf(" y b and y c: %u\n", num diff bc); 473 
aligned free(x); 
aligned free(y cpp); 
aligned free(y a); 
aligned free(y b); 
aligned free(y c); 


) 
int tmain(int argc, TCHAR* argv[]) 
( 
try 
AvxFma() ; 
AvxFmaTimed(); 
) 
catch (...) 
{ 


printf("Unexpected exception has occurred! in"); 
printf("File: Xs (_tmain)\n", FILE ); 
) 
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return 0; 


清单 16-12 


.model flat,c 
.code 


# 16 Č 


AvxFma_.asm 


; void AvxFmaSmooth5a_(float* y, const float*x, Uint32 n, const float*= 


sm5 mask); 


5 
> 
; 
; 需要 : AVX 


AvxFmaSmoothSa_ proc 
push ebp 
mov ebp,esp 
push esi 
push edi 


; 加 载 参 数值 
mov edi, [ebp+8] 
mov esi, [ebp+12] 
mov ecx, [ebp+16] 
mov eax, [ebp+20] 
add esi,8 
add edi,8 
sub ecx,4 
align 16 


; x 中 的 每 个 元 素 进 行 平滑 操作 


@@: vxorps xmm6 ,xmm6 , xmm6 


; 计算 x_total+= x[i-2]*sm5 mask[0] 
vmovss xmm0,real4 ptr [esi-8] 
vmulss xmm1,xmm0,real4 ptr [eax] 
vaddss xmm6,xmm6, xmm1 


; 计算 x_total+= x[i-1]*sm5 mask[1] 
vmovss xmm2,real4 ptr [esi-4] 
vmulss xmm3,xmm2,real4 ptr [eax+4] 
vaddss xmm6,xmm6, xmm3 


; 11S x total«-x[i]*sms mask[2] 
vmovss xmm0,real4 ptr [esi] 
vmulss xmmi,xmmO,real4 ptr [eax+8] 
vaddss xmm6,xmm6, xmm1 


; 计算 x_total+=x[i+1]*sm5_mask[3] 
vmovss xmm2,real4 ptr [esi+4] 
vmulss xmm3,xmm2,real4 ptr [eax+12] 
vaddss xmm6, xmm6, xmm3 


; 计算 x_total+=x[i+2]*sm5_mask[4] 
vmovss xmmO,real4 ptr [esi+8] 
vmulss xmm1,xmm0,real4 ptr [eax+16] 
vaddss xmm6,xmm6, xmm1 


3 保存 x_total 
vmovss real4 ptr [edi] ,xmm6 


; 描述 : 本 函数 使 用 标量 SPFP 乘法 和 加 法 ， 对 输入 的 数组 x 进行 加 权 平 滑 变换 


;edi = 指向 y 

jesi = 指向 x 

jecx =n 

jeax = 指向 sm5_mask 


;调整 指针 ， 略 过 对 最 开始 两 个 元 素 和 最 后 两 个 元 素 的 计算 


;X total-0 
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add esi,4 
add edi,4 
sub ecx,1 
jnz @B 


pop edi 

pop esi 

pop ebp 

ret 
AvxFmaSmoothsa endp 
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; void AvxFmaSmoothsb (float* y, const float*x, Uint32 n, const float*e 


sm5 mask); 


; 描述 。 本 函数 使 用 标量 SPFP 融合 乘 加 运算 ， 对 输入 的 数组 x 进行 加 权 平 滑 变换 


5 
; 8839. AVX2, FMA 


AvxFmaSmooth5b proc 
push ebp 
mov ebp,esp 
push esi 
push edi 


; 加载 参数 值 
mov edi, [ebp+8] 
mov esi,[ebp«12] 
mov ecx, [ebp+16] 
mov eax, [ebp«20] 


add esi,8 
add edi,8 
sub ecx,4 
align 16 


; 对 x 中 的 每 个 元 素 进 行 平滑 操作 
@@: vxorps xmm6, xmm6,xmm6 
vxorps xmm7,xmm7, xmm7 


jedi = 指向 y 

;esi = 指向 x 

;ecx =n 

;eax = 指向 sm5 mask 


TASS, BGDUHEIPASPST 7CXCRURURPSA RHE 


[Li 
o 


;设置 x_totall 
;设置 x_total2 


Mu 
e 


计算 x totali-x[i-2]*sm5 mask[0]«x totali 
vmovss xmm0,real4 ptr [esi-8] 
vfmadd231ss xmm6,xmmO,real4 ptr [eax] 


v. 


; 计算 x_total2=x[i-1]*sm5_mask[1]+x_total2 
vmovss xmm2,real4 ptr [esi-4] 
vfmadd231ss xmm7,xmm2,real4 ptr [eax+4] 


计算 x_total1=x[i]*sm5_mask[2]+x_total1 
vmovss xmmo,real4 ptr [esi] 
vfmadd231ss xmm6,xmm0,real4 ptr [eax+8] 


计算 x total2-x[i*1]*sm5 mask[3]«x total2 
vmovss xmm2,real4 ptr [esi+4] 
vfmadd231ss xmm7,xmm2,real4 ptr [eax+12] 


v. 


计算 x_total1=x[i+2]*sm5_mask[4]+x_total1 
vmovss xmm0,real4 ptr [esi+8] 
vfmadd231ss xmm6,xmm0,real4 ptr [eax+16] 


9- 


计算 final x_total 并 保存 结果 
vaddss xmm5, xmm6, xmm7 
vmovss real4 ptr [edi],xmm5 


v. 
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add esi,4 
add edi,4 
sub ecx,1 
jnz @B 


pop edi 

pop esi 

pop ebp 

ret 
AvxFmaSmooth5b_ endp 


; void AvxFmaSmooth5c_(float* y, const float*x, Uint32 n, const float*e 
sm5 mask); 

; 描述 : 本 函数 使 用 标量 SPFP 融合 乘 加 运算 ， 对 输入 的 数组 x 进行 加 权 平滑 变换 
> 

; 需要 : AVX2, FMA 


AvxFmaSmooth5c proc 


push ebp 
mov ebp,esp 
push esi 
push edi 

; 加 载 参数 值 
mov edi,[ebp+8] ;edi= 指向 y 
mov esi,[ebp+12] ;esi= 指向 x 
mov ecx, [ebp+16] ecx =n 
mov eax, [ebp+20] ;eax= 指向 sm5_mask 
add esi,8 ;调整 指针 ， 略 过 对 最 开始 两 个 元 素 和 最 后 两 个 元 素 的 计算 
add edi,8 

477 sub ecx,4 

align 16 

; 对 x 中 的 每 个 元 素 进 行 平滑 操作 ， 结 果 保 存在 y 中 

@@: vxorps xmm6, xmm6, xmm6 ;设置 x_total = 0 


it x_total=x[i-2]*sm5_mask[0]+x_total 
vmovss xmmo,real4 ptr [esi-8] 
vfmadd231ss xmm6,xmmo,real4 ptr [eax] 


we 


计算 x_total=x[i-1]*sm5_mask[1]+x_total 
vmovss xmmo,real4 ptr [esi-4] 
vfmadd231ss xmm6,xmm0,real4 ptr [eax+4] 


9 


iF€ x total-x[i]*sm5 mask[2]*x total 
vmovss xmmo,real4 ptr [esi] 
vfmadd231ss xmm6,xmmO0,real4 ptr [eax+8] 


9 


il€ x total-x[i«1]*sm5 mask[3]*x total 
vmovss xmmo,real4 ptr [esi+4] 
vfmadd231ss xmm6,xmmO,real4 ptr [eax+12] 


9 


; 11 x total-x[i«2]*sm5 mask[4]«x total _ 
vmovss xmm0,real4 ptr [esi+8] 
vfmadd231ss xmm6,xmmo,real4 ptr [eax+16] 


vmovss real4 ptr [edi],xmm6 


add esi,4 
add edi,4 
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sub ecx,1 
jnz @B 


pop edi 

pop esi 

pop ebp 

ret 
AvxFmaSmoothsc endp 

end 


平滑 变换 常用 来 降低 信号 中 存在 的 噪声 ， 如 图 16-2 所 示 。 上 图 所 示 的 原始 信号 包含 大 
量 的 噪声 ， 下 图 是 应 用 平滑 变换 操作 后 的 信号 数据 。 平 滑 操作 使 用 一 组 常量 权 值 ， 对 原始 信 
号 数据 点 及 其 相 邻 的 数据 点 进行 加 权 操 作 。 图 16-3 更 详细 地 说 明了 这 种 技术 。 要 对 每 个 原 
始 数据 点 进行 平滑 操作 ， 通 常 涉及 连续 的 乘法 和 加 法 运算 。 这 意味 着 数据 平滑 算法 非常 适合 
使 用 FMA 指令 来 实现 。 l 478 
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图 16-2 原始 数据 信号 (上 图 ) 及 其 平滑 的 对 应 信号 (下 图 ) 
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C++ X fF AvxFma.cpp (参见 清单 16-11) 包含 一 个 名 为 AvxFmalnitX 的 函数 。 这 个 函数 
构造 了 一 个 合成 的 原始 数据 信号 ， 并 将 相应 的 数据 保存 在 数组 中 ， 用 来 测试 示例 函数 。 原 始 
数据 信号 包括 三 个 正弦 波形 以 及 一 些 随机 噪声 ， 它 对 应 图 16-2 上 面部 分 的 图 形 。AvxFmaInitX 
之 后 是 函数 AvxFmaSmooth5Cpp， 它 用 于 对 原始 数据 信号 x 做 平滑 操作 。 注 意 : 平滑 操作 没 
有 施加 到 x 中 的 最 前 两 个 和 最 后 两 个 数据 点 ， 以 便 简化 C++ 语言 和 汇编 语言 的 对 应 算法 。 

值得 注意 的 另 一 个 函数 是 AvxFma.cpp 中 的 AvxFma。 这 个 函数 分 配 信和 号 数组 所 需 的 空 
间 ， 调 用 各 种 平滑 函数 ， 并 保存 结果 。 除 了 天 数 AvxFmaSmooth5Cpp, AvxFma 还 调用 平滑 
Ab FE pki X, AvxFmaSmoothSa , AvxFmaSmooth5b 和 AvxFmaSmooth5c 。 这 些 函 数 使 用 不 
同 的 汇编 语言 指令 序列 实现 平滑 算法 。 

清单 16-12 显示 了 用 于 上 述 平滑 函数 的 汇编 语言 源 代 码 。AvxFmaSmooth5a_ 函 
数 通过 使 用 一 系列 vmulss 和 vaddss 指令 实现 平滑 技术 。 需 要 注意 的 是 ， 执 行 乘法 时 ， 
AvxFmaSmooth5a_ 函数 通过 交替 使 用 XMM 寄存 器 对 提高 了 性 能 。AvxFmaSmooth5b 函数 


利用 vfmadd231ss (标量 单 精度 浮 点 数 的 融合 乘 加 运算 ) 指令 来 执行 数据 平滑 处 理 。 这 个 函 


数 使 用 多 个 XMM 寄存 器 来 计算 两 个 中 间 FMA 结果 ， 这 些 中 间 值 最 后 通过 使 用 vaddss 指令 
求 和 生成 最 终结 果 。 

有 效 利 用 FMA 指令 通常 需要 一 些 编程 技巧 ， 以 避免 无 意 间 造成 性 能 延迟 。 例 如 ， 
AvxFmaSmooth5c PK Zi tH, Jil HH] vfmadd231ss 指令 ， 但 每 条 指令 使 用 XMM6 作为 目的 寄存 
器 ， 这 就 造成 了 对 不 良 数据 的 依赖 ， 妨 碍 了 处 理 器 充分 利用 其 所 有 FMA 执行 单元 (处 理 器 
执行 单元 将 在 第 21 章 中 讨论 )。 

对 示例 程序 AvxFmah 中 的 各 类 平滑 处 理 函 数 的 时 间 测 量 ， 包 含 在 表 16-2 中 。 需 要 注意 
的 是 Smooth5b_ 函数 ， 它 使 用 的 FMA 指令 的 平均 执行 时 间 比 非 FMA 函数 SmoothSa_ {R24 
5%。 换 句 话 说， 执行 5 个 FMA 操作 明显 比 5 个 独立 的 乘法 和 加 法 快 。 另 外 请 注意 ， 因 为 故 
意向 Smooth5c_ 中 添加 了 数据 依赖 ， 导 致 其 执行 速度 比 Smooth5b_ 慢 了 大 概 7%， 虽 然 这 两 
个 函数 都 使 用 了 vfmadd231ss 指令 。 同 时 ，Smooth5c ”函数 也 比 非 FMA 函数 Smooth5a 慢 。 
示例 程序 AvxFma 给 我 们 的 教训 是 ， 通 过 把 独立 的 乘法 和 加 法 简单 替换 为 等 效 FMA 指令 并 
不 能 保证 提高 性 能 ， 而 且 还 可 能 因为 代码 中 包含 对 重要 数据 的 依赖 而 变 得 更 慢 。 


X 16-2 ”平滑 处 理 函 数 ( 50 000 个 数据 点 ) 的 平均 执行 时 间 (单位 : 微 秒 ) 





CPU ik Smooth5a Smooth5b . Smooth5c vfmadd231ss 
vmulss,vaddss vfmadd231ss (一 个 XMM 寄存 器 ) 
Intel Core i7-4770 76.4 73.1 70.2 75.1 
Intel Core i7-4600U 116.7 109.1 104.5 112.4 


并 不 奇怪 的 是 ， 采 用 FMA 操作 进行 计算 的 函数 ， 与 使 用 独立 的 乘法 和 加 法 运算 所 得 
到 的 结果 通常 略 有 不 同 。 这 可 以 通过 示例 程序 AvxFma 的 运行 结果 得 到 证 实 ( 见 输出 16- 
5 )， 其 中 显示 的 是 各 种 结果 数据 之 间 数 据点 的 差 值 。 输 出 文件 —AvxFmaRawData.csv 包含 
原始 数据 点 与 由 各 个 算法 的 实现 计算 出 的 平滑 值 。 表 16-3 包含 输出 文件 中 的 若干 数据 点 例 
子 ， 显 示 了 这 种 差异 。 对 于 这 个 示例 程序 ， 这 些 差异 的 大 小 无 关 紧 要 ， 因 为 平滑 算法 对 每 
个 数据 点 只 执行 了 5 次 乘法 和 加 法 操作 。 但 是 在 需要 大 量 乘 法 和 加 法 运算 的 场合 ， 或 者 程 
序 需 要 将 舍 入 误差 控制 在 最 小 的 情况 下 ，FMA 计算 的 优势 非常 明显 ， 它 将 大 大 提高 计算 的 
精度 。 
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输出 16-5 “示例 程序 AvxFmaResultsforAvxFma 
Results for AvxFma 
Raw data saved to file — AvxFmaRawData.csv 
Number of data point differences between 
y a and y b: 178 
y a and y c: 178 
y_b and y c: 0 


Benchmark times saved to file ^ AvxFmaTimed.csv 





X 16-3 ”对 数据 点 使 用 各 种 平滑 算法 的 例子 


索引 x C++ Smooth5a_ Smooth5b_ Smooth5c_ 
4 1.89155102 1.90318263 1.903 18263 1.90318251 1.90318251 
17 —0.323192 —0.28281462 —0.28281462 —0.28281465 —0.28281465 
120 —0.37265474 —0.19113629 —0.19113629 —0.19113627 —0.19113627 
135 1.30851579 1.29426527 1.29426527 1.29426503 1.29426503 
482 -2.9402566 —2.96991372 -2.96991372 —-2.96991324 -2.96991324 


16.4 通用 寄存 器 指令 


基于 Haswell 这 样 最 新 微 架 构 的 处 理 器 ， 包 含 了 一 些 新 的 通用 寄存 器 指令 。 这 些 指令 
以 用 来 进行 不 影响 标志 位 的 乘法 和 移 位 操作 ， 这 比 它们 影响 标志 位 的 版 本 速度 更 快 。 oa 
支持 增强 的 位 处 理 操 作 。 本 节 中 的 示例 代码 演示 如 何 执行 不 影响 标志 位 的 乘法 和 移 位 操作 ， 
另外 还 演示 了 如 何 使 用 几 个 增强 的 位 操作 指令 。 


16.4.1 不 影响 标志 位 的 乘法 和 移 位 操作 


在 本 小 节 中 ， 我 们 将 研究 一 个 名 为 AvxGprMulxShiftx 的 示例 程序 ， 说 明 如 何 使 用 不 影 
响 标志 位 的 无 符号 整 型 数 乘 法 和 移 位 指令 。 清 单 16-13 和 清单 16-14 分 别 显 示 了 示例 程序 
AvxGprMulxShiftx 的 C++ 和 汇编 语言 源 代 码 。 


清单 16-13 AvxGprMulxShiftx.cpp 
#include "stdafx.h" 
#include "MiscDefs.h" 


extern "C" Uint64 AvxGprMulx (Uint32 a, Uint32 b, Uint8 flags[2]); 
extern "C" void AvxGprShiftx (Int32 x, Uint32 count, Int32 results[3]); 


void AvxGprMulx(void) 
const int n 


Uint32 a[n] 
Uint32 b[n] 


3; 
(64, 3200, 100000000); 
(1001, 12, 250000000}; 


"ow Mw 


printf("Results for AvxGprMulx()\n"); 
for (inti-0;ic«n; ie) 
{ 
Uint8 flags[2]; 
Uint64 c - AvxGprMulx (a[i], b[i], flags); 


printf("Test case %d\n", i); 
printf(" a: Xu b: Xu c: %llu\n", a[i], b[i], c); 


340 
printf(" status flags before mulx: oxXo2XWn", flags[0]); 
printf(" status flags after mulx: 0x%02X\n", flags[1]); 
) 
) 
void AvxGprShiftx(void) 
t 


const int n = 4; 

Int32 x[n] = ( 0x00000008, 0x80000080, 0x00000040, Oxfffffc10 ); 
482 Uint32 count[n] = { 2, 5, 3, 4 }; 

printf("\nResults for AvxGprShiftx()\n"); 

for (int i = 0; i < n; i++) 


{ 
Int32 results[3]; 
AvxGprShiftx_(x[i], count[i], results); 
printf("Test case %d\n", i); 
printf(" x: Ox%08X (%11d) count: %u\n", x[i], x[i], count[i]); 
printf(" sarx: Ox%08X (%11d)\n", results[0], results[0]); 
printf(" shlx: 0x%08X (%11d)\n", results[1], results[1]); 
printf(" shrx: 0x%08X (%11d)\n", results[2], results[2]); 
} 
} 
int tmain(int argc, _TCHAR* argv[]) 
{ 
AvxGprMulx(); 
AvxGprShiftx() ; 
return 0; 
} 


清单 16-14 AvxGprMulxShiftx_.asm 
-model flat,c 
«code 
3 extern "C" Uint64 AvxGprMulx (Uint32 a, Uint32 b, Uint8 flags[2]); 
; 描述 : 本 函数 演示 指令 mulx 的 用 法 ， 它 是 一 个 不 影响 标志 位 的 无 符号 整 型 乘法 指令 
; 需要 : BMI2 


AvxGprMulx proc 
push ebp 
mov ebp,esp 


; 执行 mulx 前 ， 保 存 一 份 标志 寄存 器 的 状态 备份 
mov ecx, [ebp+16] 
lahf 
mov byte ptr [ecx],ah 


; 执行 不 影响 标志 位 的 乘法 运算 。mulx 指令 包含 两 个 源 操作 数 ， 即 显 式 源 操作 数 
3 [ebp+8] 和 隐 式 源 操作 数 edx, RRA 64 位 值 ， 存 放 在 寄存 器 对 edx:eax 中 


mov edx, [ebp+12] ;edx = b 
483 mulx edx,eax, [ebp+8] ;edx:eax = [ebp«8] * edx 
; 执行 完 mulx 指令 ， 保 存 一 份 标志 寄存 器 的 状态 备份 
push eax 
lahf 


mov byte ptr [ecx«1],ah 
pop eax 
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pop ebp 
ret 
AvxGprMulx endp 


; extern "C" void AvxGprShiftx (Int32 x, Uint32 count, Int32 results[3]); 
> 

; 描述 : 本 函数 演示 不 影响 标志 位 的 移 位 指令 sarx. shlx 和 shrx 的 用 法 

; 

; 需要 :BMI2 


AvxGprShiftx proc 
push ebp 
mov ebp,esp 


;加载 参 数 并 执行 移 位 操作 。 注 意 每 条 移 位 指令 都 需要 三 个 操作 数 : DesOp、 
3 SrcOp 和 CountOp 
”mov ecx, [ebp+12] ;ecx = 移 位 计数 
mov edx, [ebp+16] jedx = 指向 结果 


sarx eax, [ebp+8] ,ecx ;算术 右 移 
mov [edx],eax 

shlx eax, [ebp+8] ,ecx ;逻辑 左 移 
mov [edx+4],eax 


shrx eax, [ebp+8],ecx ;逻辑 右 移 
mov [edx+8],eax 


pop ebp 
ret 

AvxGprShiftx_ endp 
end 


AvxGprMulxShiftx.cpp 文件 ( 见 清 单 16-13 ) 包含 两 个 函数 ， 分 别 为 AvxGprMulx 和 
AvxGprShiftx。 这 两 个 函数 分 别 准 备 了 测试 用 例 ， 用 来 演示 不 影响 标志 位 的 乘法 和 移 位 操 
YE. PRA AvxGprMulx 中 ， 在 每 次 不 影响 标志 位 乘法 操作 之 前 和 之 后 ，flags 数组 都 保存 了 
EFLAGS 中 的 状态 位 。 

清单 16-14 列 出 了 示例 程序 AvxGprMulxShiftx 的 汇编 代码 。 该 函数 使 用 mulx edx， 
eax, [ebp+8] (不 影响 标志 位 的 无 符号 乘法 ) 指令 来 执行 不 影响 标志 位 的 乘法 。 该 指令 将 
内 存 地 址 [ebp+8] 中 的 数值 与 隐 式 操作 数 EDX 相 乘 ， 所 得 64 位 无 符号 乘积 存 人 寄存 器 对 
EDX:EAX 中 。 请 注意 ，lahf (把 状态 标志 存 人 AH 寄存 器 ) 指令 用 于 验证 在 调用 mulx 前 后 
EFLAGS 状态 位 是 否 被 修改 。 

AvxGprShift_ 函数 包含 sarx、shlx 和 shrx (不 影响 标志 位 的 移 位 操作 ) 指令 的 示例 ， 这 
些 指 令 对 第 一 个 源 操作 数 进行 移 位 操作 ， 移 位 的 数目 由 第 二 个 源 操作 数 指定 。 移 位 操作 的 结 
果 保 存 到 目标 操作 数 中 。 输 出 16-6 给 出 了 示例 程序 AvxGprMulxShiftx 的 运行 结果 。 


输出 16-6 示例 程序 AvxGprMulxShiftX 


Results for AvxGprMulx() 

Test case 0 
a: 64 b: 1001 c: 64064 
status flags before mulx: 0x46 
status flags after mulx: 0x46 

Test case 1 
a: 3200 b: 12 c: 38400 
status flags before mulx: 0x93 
status flags after mulx: 0x93 


485 
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Test case 2 
a: 100000000 b: 250000000 c: 25000000000000000 
status flags before mulx: 0x97 
status flags after mulx: 0x97 


Results for AvxGprShiftx() 


Test case 0 
x: 0x00000008 ( 8) count: 2 
sarx: 0x00000002 ( 2) 
shlx: 0x00000020 ( 32) 
shrx: 0x00000002 ( 2) 
Test case 1 


x: 0x80000080 (-2147483520) count: 5 
sarx: OxFC000004 ( -67108860) 


shlx: 0x00001000 ( 4096) 
shrx: 0x04000004 ( 67108868) 
Test case 2 
xi 0x00000040 ( 64) count: 3 
sarx: 0x00000008 ( 8) 
shlx: 0x00000200 ( 512) 
shrx: 0x00000008 ( 8) 
Test case 3 
xs OxFFFFFC10 ( -1008) count: 4 
sarx: OxFFFFFFC1 ( -63) 
shlx: oxFFFFC100 ( -16128) 


shrx: OxOFFFFFC1 ( 268435393) 


16.4.2 ”增强 的 位 操作 


本 章 最 后 的 示例 程序 AvxGprBitManip 演示 如 何 使 用 一 些 新 的 位 操作 指令 ， 同 时 演示 
了 另 一 种 访问 栈 上 参数 的 方法 。 清 单 16-15 和 清单 16-16 为 示例 程序 AvxGprBitManip 的 源 


代码 。 


清单 16-15 AvxGprBitManip.cpp 


#include "stdafx.h" 
#include "MiscDefs.h" 


extern "C" void AvxGprCountZeroBits (Uint32 x, Uint32* lzcnt, Uint32* tzcnt); 
extern "C" Uint32 AvxGprBextr (Uint32 x, Uint8 start, Uint8 length); 
extern "C" Uint32 AvxGprAndNot (Uint32 x, Uint32 y); 


void AvxGprCountZeroBits(void) 
( 
const int n = 5; 
Uint32 x[n] = ( 0x001000008, 0x00008000, 0x8000000, 0x00000001, 0 ); 


printf("\nResults for AvxGprCountZeroBits() Wn"); 
for (int i = 0; i < n; i++) 


{ 
Uint32 lzcnt, tzcnt; 
AvxGprCountZeroBits (x[i], &lzcnt, &tzcnt); 
printf("x: ox%o8x ", x[i]); 
printf("lzcnt: %2u ^", lzcnt); 
printf("tzcnt: %2u\n", tzcnt); 

} 
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void AvxGprExtractBitField(void) 

{ 
const int n = 3; 
Uint32 x[n] = { 0x12345678, 0x80808080, Oxfedcba98 }; 
Uint8 start[n] = ( 4, 7, 24 }; 

Uint8 len[n] = { 16, 9, 8 }; 


printf("\nResults for AvxGprExtractBitField()\n"); 
for (int i = 0; i < ni i++) 
{ 
Uint32 bextr = AvxGprBextr (x[i], start[i], len[i]); 


printf("x: oxXo8X ^", x[i]); 

printf("start: %2u ^", start[i]); 486 
printf("len: %2u ", len[i]); 

printf("bextr: Ox%08X\n", bextr); 


) 


void AvxGprAndNot (void) 

{ 
const int n = 3; 
Uint32 x[n] = ( Oxfoooo00f, oxffooffoo, Oxaaaaaaaa }; 
Uint32 y[n] = { 0x12345678, 0x12345678, Oxffaa5500 }; 


printf("\nResults for AvxGprAndNot()\n"); 
for (int i = 0; i <n; i++) 
{ 
Uint32 andn = AvxGprAndNot (x[i], y[i]); 
printf("x: Ox408X y: 0x%08X z: Ox%08X\n", x[i], y[i], andn); 


int tmain(int argc, _TCHAR* argv[]) 
AvxGprCountZeroBits(); 
AvxGprExtractBitField(); 


AvxGprAndNot() ; 
return 0; 


清单 16-16 AvxGrpBitManip .asm 


.model flat,c 
.code 


; extern "C" void AvxGprCountZeroBits (Uint32 x, Uint32* lzcnt, Uint32* tzcnt); 
3 

; 描述 ， 本 函数 演示 了 指令 lzcnt 和 tzcnt 的 用 法 

j 

; 需要 : BMI1,LZCNT 


AvxGprCountZeroBits proc 


mov eax, [esp+4] ;eax = x 

lzcnt ecx,eax ;计算 前 导 0 的 个 数 

mov edx, [esp+8] 

mov [edx] ,ecx ;保存 结果 487 
tzcnt ecx,eax ;计算 后 缀 0 的 个 数 


mov edx, [esp«12] 
mov [edx] ,ecx ;保存 结果 
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ret 
AvxGprCountZeroBits_ endp 


3 extern "C" Uint32 AvxGprBextr (Uint32 x, Uint8 start, Uint8 length); 


; 描述 ， 本 函数 演示 bextr 指令 的 用 法 


> 需要 : BMI1 

AvxGprBextr proc 
mov cl, [esp+8] ;cle 起 始 位 置 
mov ch, [esp+12] ;ch= 需 提取 的 位 域 长 度 
bextr eax, [esp+4],ecx ;eax = 提取 的 位 域 
ret 


AvxGprBextr  endp 

; extern "C" Uint32 AvxGprAndNot (Uint32 x, Uint32 y); 
; 描述 。 本 函数 演示 andn 指令 的 用 法 

; 需要 : BMI1 


AvxGprAndNot proc 
mov ecx, [esp«4] 
andn eax,ecx, [esp+8] ;eax = "ecx & [esp+8] 
ret 
AvxGprAndNot_ endp 
end 


大 多 数 新 的 位 操作 指令 是 为 了 提高 某 些 专 有 算法 的 性 能 而 引入 的 ， 比 如 数据 加 密 和 解 
密 。 当 然 ， 它 们 还 可 以 用 来 在 更 平常 的 算法 中 简化 位 操作 。 示 例 程序 AvxGprBitManip 演示 
了 如 何 使 用 那些 具有 广泛 用 途 的 位 操作 指令 。 

C++ 源 文 件 AvxGprBitManip.cpp (参见 清单 16-15 ) 包含 三 个 简短 的 函数 ， 用 以 测试 
对 应 的 汇编 语言 函数 。 第 一 个 也 数 AvxGprCountZeroBits 初始 化 用 于 lzcnt (计算 前 导 0 个 
数 ) 和 tzcnt (计算 后 级 0 个 数 ) 的 测试 数组 。 第 二 个 函数 为 AvxGprExtractBitField， 演 示 
了 bextr (提取 位 域 ) 指令 的 用 法 。 在 示例 程序 AvxGprBitManip F, fi Ja kal FAY PR 
AvxGprAndNot， 它 准备 了 几 个 测试 值 来 检测 andn (逻辑 与 或 ) 指令 。 

使 用 上 述 位 操作 指令 的 函数 代码 在 AvxGprBitManip_.asm 文件 中 (参见 清单 16-16 )。 
AvxGprCountZeroBits pA RUB AN f lzcnt 和 tzcnt 指令 的 用 法 ， 分 别 计算 在 源 操作 数 中 前 导 0 
RUE 0 的 个 数 。 同 时 演示 了 另外 一 种 访问 栈 上 参 
数 的 方法 一 一 使 用 ESP 寄存 器 ， 而 不 是 EBP 寄存 。 高 内 存 地 址 
aro Al 16-4 显示 了 执行 指令 mov eax,[esp+4] 之 前 
栈 上 的 内 容 ， 它 使 用 ESP 寄存 器 作为 基本 指针 ， 访 
问 堆 栈 上 的 参数 x。 这 种 方法 适用 于 短 叶子 函数 


( 即 不 调用 其 他 函数 的 函数 )。 请 注意 寄存 器 EBP 仍 EE IUE 
然 被 认为 是 易 变 寄存 器 ， 其 内 容 必 须 在 调用 前 保 +8 
存 。 使 用 ESP 代替 EBP 的 缺点 是 参数 值 的 偏 移 量 | + 
是 不 固定 的 ; 改变 ESP 的 值 将 导致 堆栈 上 的 任何 参 — 低 内 存 地 址 ESP 
数值 (和 局 部 变量 ) 的 偏 移 量 发 生 改 变 。 图 16-4 函数 AvxGprCountZeroBits A H 


PRX AvxGprBextr 执行 了 bextr 指令 ， 该 指令 从 处 的 堆栈 内 容 
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第 一 个 源 操作 数 中 提取 一 段 连续 的 位 域 ， 起 始 位 置 和 提取 的 长 度 由 第 二 个 源 操 作 数 指定 。 需 
要 注意 的 是 ，AvxGprBextr 函数 使 用 指令 mov cl,[esp+8] 和 mov ch,[esp+12] 来 传递 起 始 位 
置 和 长 度 ， 组 合成 ecx， 成 为 第 二 个 源 操作 数 。 最 后 一 个 汇编 语言 函数 为 AvxGprAndNot ， 
此 函数 演示 了 如 何 使 用 andn 指令 ， 该 指令 等 价 于 计算 式 DesOp = -SrcOpl & SrcOp2。andn 
指令 经 常用 于 简化 布尔 掩 码 运算 。 输 出 16-7 给 出 了 示例 程序 AvxGprBitManip 的 运行 结果 。 


输出 16-7 示例 程序 AvxGprBitManip 


Results for AvxGprCountZeroBits() 

X: 0x01000008 lzcnt: 7 tzcnt: 3 
x: Ox00008000 Izcnt: 16 tzcnt: 15 
x: 0x08000000 lzcnt: 4 tzcnt: 27 
x 
x 





: 0x00000001 lzcnt: 31 tzcnt: 0 
: 0x00000000 lzcnt: 32 tzcnt: 32 489 


Results for AvxGprExtractBitField() 

X: 0x12345678 start: 4 len: 16 bextr: 0x00004567 
x: 0x80808080 start: 7 len: 9 bextr: 0x00000101 
X: OxFEDCBA98 start: 24 len: 8 bextr: 0x000000FE 


Results for AvxGprAndNot() 

X: OxFOOOOOOF y: 0x12345678 z: 0x02345670 
X: OxFFOOFFOO y: 0x12345678 z: 0x00340078 
X: OXAAAAAAAA y: OxFFAA5500 z: 0x55005500 
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在 本 章 中 ， 我 们 先 学 习 了 如 何 使 用 cpuid 指令 检测 处 理 器 是 否 支持 x86-SSE, x86-AVX 
和 其 他 x86 扩展 指令 集 的 方法 ， 还 学 习 了 一 些 x86-AVX 的 数据 操作 指令 。 最 后 ， 我 们 通过 
一 些 示 例 程序 重点 学 习 了 新 的 通用 寄存 器 指令 的 用 法 ， 包 括 不 影响 标志 位 的 操作 指令 和 增强 
的 位 操作 指令 。 
到 目前 为 止 ， 本 书 的 讲解 和 示例 代码 只 关注 x86-32 的 汇编 语言 编程 。 从 下 一 章 开 始 ， 
我 们 将 重点 学 习 x86-64 的 计算 资源 和 编程 环境 。 


第 17 章 | 


Modern X86 Assembly Language Programming: 32-bit, 64-bit SSE, and AVX 


x86-64 核心 架构 





本 章 将 探索 x86-64 核心 架构 的 基础 内 容 。 我 们 将 从 浏览 内 部 架构 开始 ， 包 括 执行 单 
元 、 通 用 寄存 器 、 指 令 操作 数 以 及 寻 址 方式 。 接 下 来 将 讨论 使 用 汇编 语言 编程 时 必须 注意 的 
x86-64 和 x86-32 执行 环境 差异 。 最 后 ， 将 扼要 地 介绍 x86-64 指令 集 。 本 章 的 所 有 内 容 ， 都 
假设 读者 对 前 面 介绍 的 x86-32 核心 架构 和 指令 集 已 经 有 了 基本 了 解 。 


17.1 内 部 架构 


从 应 用 程序 的 角度 来 看 ， 可 以 从 人 逻辑 上 把 x86-64 处 理 器 分 为 几 个 不 同 的 执行 单元 ， 如 
图 17-1 所 示 。 其 中 ， 核 心 执行 单元 包含 了 通用 寄存 器 、RFLAGS 寄存 器 以 及 RIP ( 即 指令 指 
£p) 寄存 器 。 其 他 的 执行 单元 包括 x87 FPU 处 理 器 ， 以 及 执行 SIMD 指令 的 计算 部 件 。 在 处 
理 器 上 执行 的 每 个 任务 ， 都 一 定 会 用 到 核心 执行 单元 的 资源 ， 可 能 会 用 到 x87 FPU 和 SIMD 
[931] 部 件 。 换 句 话说， 前 者 是 必要 的 ， 后 者 是 可 选 的 。 





图 17-1. x86-64 内 部 架构 


本 节 剩 下 的 内 容 将 更 详细 地 介绍 x86-64 执行 单元 ， 首 先 集 中 介绍 应 用 程序 使 用 的 执行 
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元 素 ， 包 括 通用 寄存 器 、RFLAGS 寄存 器 和 指针 寄存 器 。 接 下 来 ， 将 探讨 x86-64 的 操作 数 
和 内 存 寻 址 模式 。 本 章 后 面 会 提 及 如 何在 汇编 语言 函数 中 使 用 x87 FPU 和 MMX 执行 单元 。 
第 19 章 将 介绍 SIMD 执行 单元 。 


17.1.1 通用 寄存 器 


x86-64 核心 执行 单元 包含 16 个 64 位 通用 寄存 器 ， 这 些 通用 寄存 融 可 以 用 来 进行 算术 
ih, WHS 、 以 及 地 址 计算 ， 也 可 用 作 引 用 内 存 数据 的 地 址 指针 。 这 些 64 位 通用 寄存 
器 的 低位 双 字 、 字 或 字 节 都 可 以 被 独立 访问 ， 也 可 以 用 作 32 位 、16 位 和 S 位 的 操作 数 。 图 
17-2 列 出 了 全 部 的 16 个 通用 寄存 器 。 





64 位 和 32 位 寄存 器 
图 17-2 x86-64 通用 寄存 器 


需要 注意 的 是 ， 对 于 x86-64 中 新 引入 的 8 个 字 节 寄存 器 ， 存 在 一 个 已 知 的 命名 不 一 致 
的 问题 。Intel 文档 把 它们 称 为 R8L-R15L。 但 微软 的 64 位 汇编 编译 器 则 要 求 按照 图 17-2 的 
命名 方式 进行 命名 。 所 以 本 书 将 使 用 R8B-R15B 的 命名 方式 ， 以 保证 示例 代码 和 文字 叙述 一 
致 。 尽 管 存 在 一 些 限制 ， 但 x86-64 平 台 仍然 支持 老 的 AH、BH、CH fI DH 寄存 器 的 使 用 ， 
我 们 将 在 本 章 的 后 面 讨 论 这 些 限制 。 

与 x86-32 指令 集 类 似 ，x86-64 指令 集 也 对 寄存 器 的 使 用 做 了 一 些 规定 或 约束 。 比 如 ， 
单 操作 数 版 本 的 imul 指令 ， 总 是 将 得 到 的 128 位 运算 结果 通过 RDX:RAX 寄存 器 对 返回 。 
而 idiv 指令 ， 则 总 是 从 RDX:RAX 寄存 器 对 中 加 载 128 位 的 被 除数 ， 运 算得 到 的 64 位 的 商 
和 余数 被 分 别 保 存在 RAX 和 RDX 寄存 器 中 。 再 如 ， 所 有 的 字符 串 指令 都 从 RSI 和 RDI 这 
两 个 寄存 器 中 读 取 源 字符 串 和 目的 字符 串 的 地 址 ， 所 有 使 用 循环 前 绥 的 字符 串 指令 都 必须 使 
用 RCX 寄存 器 作为 计数 器 。 最 后 ， 所 有 的 64 位 旋转 和 移 位 指令 ， 都 只 能 使 用 寄存 器 CL 进 
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行 可 变 长 的 位 操作 。 

处 理 器 使 用 栈 指针 寄存 器 RSP 来 实现 函数 的 调用 和 返回 。call 和 ret 指令 在 读 写 栈 的 时 
候 ， 使 用 的 是 64 位 操作 数 。push 和 pop 指令 同样 使 用 64 位 操作 数 。 这 就 意味 着 栈 在 内 存 
中 的 起 始 地 址 总 应 该 是 8 字 节 对 齐 的 。 一 些 运行 时 环境 会 把 栈 和 RSP 对齐 到 16 字 节 边界 ， 
以 便 在 使 用 XMM 寄存 器 进行 数据 传输 时 能 自动 对 齐 。 寄 存 器 RBP 可 以 被 用 作 栈 帧 指针 ， 
在 栈 帧 指针 被 编译 器 优化 的 情况 下 ，RBP 可 作为 一 个 通用 寄存 器 被 使 用 。 


17.1.2 RFLAGS 寄存 器 


RFLAGS 是 一 个 64 位 寄存 器 ， 保 存 了 处 理 器 的 各 种 状态 标志 和 控制 位 。 它 的 低 32 位 
对 应 于 x86-32 的 EFLAGS 寄存 器 ， 包 括 辅助 进位 标志 ( AF)、 进 位 标志 (CF)、 溢 出 标志 
(OF)、 奇 偶 校 验 标志 (PF)、 符 号 标志 (SF) fuk (ZF)， 这 些 都 保持 不 变 。RFLAGS 寄 
存 器 的 高 32 位 目前 保留 不 用 。 可 使 用 指令 pushfq 和 popfq 将 RFLAGS 的 值 分 别 进行 压 栈 或 


17.1.3 ”指令 指针 寄存 器 


64 位 的 RIP 寄存 器 包含 接 下 来 将 执行 指令 的 地 址 偏 移 。 和 32 位 版 本 的 寄存 器 (EIP) 一 
FE, RIP 的 值 是 由 控制 传输 指令 自动 维护 和 控制 的 ， 这 些 指令 包括 call ret jmp 和 jcc。 另 外 ， 
处 理 器 也 利用 RIP 寄存 器 来 实现 一 种 新 的 内 存 操作 数 寻 址 模式 (将 在 本 章 后 面 讲述 )， 但 是 ， 
在 程序 中 直接 访问 RIP 寄存 器 是 被 禁止 且 无 法 实现 的 。 


17.1.4 指令 操作 数 


大 多 数 x86-64 指令 都 带 有 一 个 或 多 个 操作 数 ， 这 些 值 将 在 指令 的 执行 过 程 中 被 用 到 。 
几乎 所 有 的 指令 都 需要 指定 一 个 目标 操作 数 ， 并 需要 一 个 或 多 个 源 操作 数 。 大 多 数 指令 都 需 
要 显 式 地 指定 这 些 操作 数 ， 但 也 有 一 些 x86-64 指令 是 使 用 隐 式 操作 数 的 。x86-64 模式 同样 
支持 三 种 操作 数 类 型 ， 这 一 点 和 x86-32 模式 并 无 区 别 ， 这 三 种 操作 数 类 型 是 : 立即 数 、 寄 


存 器 和 内 存 。 表 17-1 列 出 了 使 用 不 同类 型 操作 数 的 例子 。 


表 17-1 基本 操作 数 类 型 的 例子 


类 型 例子 等 价 的 C/C++ 语句 

mov rax,42 rax — 42 
imul r12,-47 r12 *= -47 

立即 数 shl r15,8 rl5 <<=8 
xor ecx,80000000h ecx “= 0x80000000 
sub r9b,14 r9b -= 14 
mov rax,rbx rax = rbx 
add rbx,r10 rbx 4— r10 

寄存 器 
mul rbx rdx:rax — rax * rbx 
and r8w,0ff00h r8w &= Oxff00 
mov rax,[r13] rax — *r13 


内 存 


or rex,[rbx+rsi*8] 
mov qword ptr [r8],17 
shl word ptr [r12],2 


rex |= *(rbx+rsi*8) 
*(long long*)r8 = 17 


*(short*)r12 <<= 2 
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17.1.5 “内存 寻 址 模式 

要 确定 一 个 操作 数 在 内 存 中 的 位 置 ，x86-64 指令 集 最 多 需要 用 到 4 个 部 分 。 这 4 个 部 
分 是 : 一 个 常量 偏 移 值 ， 一 个 基 址 寄存 器 ， 一 个 索引 寄存 器 ， 一 个 放大 因子 。 处 理 器 利用 这 
4 个 值 来 为 操作 数 计算 有 效 的 内 存 地 址 : 

有 效 地 址 ( EffectiveAddress) = 基 址 寄存 器 ( BaseReg) + 索引 寄存 器 ( IndexReg) * 放 
大 因子 (ScaleFactor) + Wf% (Disp) 

可 见 x86-64 计算 有 效 地 址 的 方法 和 x86-32 是 相似 的 。 其 中 ， 基 址 寄存 器 ( BaseReg) 
可 以 是 任何 一 个 通用 寄存 器 ， 索 引 寄 存 器 (IndexReg) 可 以 使 用 除 RSP 外 的 任意 通用 寄存 
器 。 放 大 因子 (ScaleFactor) 的 取 值 只 能 是 1、2、4 和 8 之 一 。 最 后 ， 偏 移 (Disp) 是 一 个 8 
fr. 16 位 或 32 位 的 有 符号 常量 值 ， 这 个 常量 值 被 编码 在 指令 中 。 表 17-2 演示 了 不 同形 式 的 
mov 指令 使 用 各 种 不 同 内 存 寻 址 模式 的 方法 。 请 注意 ， 在 编程 时 ，4 个 值 不 是 全 都 需要 显 式 
指定 的 。 另 外 ， 最 终 计算 得 到 的 地 址 总 是 64 位 长 度 的 。 


表 17-2 x86-64 内 存 操作 数 寻 址 方式 





寻 址 方式 例子 
RIP + Disp mov rax,[ Val] 
BaseReg mov rax,[rbx] 
BaseReg + Disp mov rax,[rbx+16] 
IndexReg * SF + Disp mov rax,[r15*8+48] 
BaseReg + IndexReg mov rax,[rbx+r15] 
BaseReg + IndexReg + Disp mov rax,[rbxt+r15+32] 
BaseReg + IndexReg * SF mov rax,[rbx+r15*8] 
BaseReg + IndexReg * SF + Disp mov rax,[rbx+r15*8+64] 


x86-64 指令 还 使 用 一 种 新 的 寻 址 模式 来 计算 内 存 中 的 静态 操作 数 的 有 效 地 址 。 表 17-2 
第 一 行 中 的 指令 mov rax, [Val] 就 是 RIP 相对 寻 址 的 例子 。 在 使 用 RIP 相对 寻 址 的 过 程 中 ， 
处 理 器 仅 需 处 理 RIP 寄存 器 的 值 以 及 包含 在 指令 中 的 32 位 有 符号 偏 移 值 。 图 17-3 演示 了 此 
计算 过 程 的 细节 。 这 种 寻 址 方式 ， 允 许 处 理 器 在 引用 一 个 静态 操作 数 时 仅 使 用 一 个 32 位 偏 
移 值 ， 而 不 必用 64 位 值 ， 从 而 节约 了 代码 空间 。 同 时 ， 这 也 使 编写 位 置 无 关 代 码 成 为 可 能 。 
(图 17-3 中 提 到 的 小 端 字 节 序 ， 其 概念 已 在 第 1 章 图 1-1 中 讨论 过 。) 





iki 对 于 Val 的 偏 移 值 ， 机 器 码 使 用 小 端 字 节 序 
图 17-3. fi FH RIP 相对 寻 址 的 过 程 中 有 效 地 址 计算 示意 
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RIP 相对 寻 址 的 唯一 局 限 在 于 ， 操 作 数 所 在 的 位 置 相对 于 RIP 寄存 器 值 的 偏 移 必须 
在 上 2GB 以 内 。 对 绝 大 多 数 程序 而 言 ， 这 个 局 限 不 会 产生 真正 的 问题 。32 位 偏 移 值 由 汇编 
器 在 生成 最 终 代 码 时 自动 计算 出 来 ， 这 样 你 在 写 汇编 代码 的 时 候 ， 就 可 以 直接 写 类 似 于 mov 
eax, [MyVal] 的 指令 ， 而 完全 用 不 着 考虑 最 终 在 机 器 指令 中 出 现 的 偏 移 值 应 该 是 多 少 。 


17.2 x86-64 和 x86-32 的 区 别 


大 多 数 的 x86-32 指令 都 有 一 个 对 应 的 x86-64 指令 ,使 用 的 是 64 位 宽 的 地 址 和 操作 数 。 
x86-64 指令 仍然 可 以 只 使 用 8 位 、16 位 或 32 位 宽 的 地 址 和 操作 数 ，x86-64 函数 可 以 使 用 这 
些 指令 。 除 了 mov 指令 外 ， 其 他 x86-64 模式 指令 中 使 用 的 立即 数 的 最 大 宽度 是 32 位。 如 
果 一 个 指令 同时 使 用 了 64 位 宽 的 寄存 器 或 内 存 操作 数 ， 以 及 一 个 32 位 的 立即 数 ， 则 处 理 器 
在 计算 前 自动 将 32 位 立即 数 扩展 为 64 位 有 符号 数 。 

关于 立即 数 的 宽度 限制 ， 还 需要 一 些 额 外 的 讨论 ， 因 为 有 些 操作 的 正确 实现 需要 使 用 
特殊 的 指令 序列 。 图 17-4 包含 一 些 这 样 的 例子 ， 指 令 中 同时 使 用 了 64 位 寄存 器 以 及 一 个 立 
即 数 。 第 一 个 例子 中 ，mov rax, 100 指令 把 一 个 立即 数 加 载 到 RAX 寄存 器 中 。 注 意 ， 机 器 
码 只 使 用 了 32 位 数 来 编码 立即 数 100。 但 这 个 值 被 自动 扩展 为 64 位 有 符号 整数 ， 并 保存 到 
RAX 中 。 接 下 来 的 指令 add rax, 200 也 类 似 地 先 自 动 将 200 扩展 为 64 位 有 符号 整数 ， 再 和 
RAX 进行 加 法 运算 。 接 下 来 的 例子 中 指令 mov rex, -2000 把 一 个 负 立 即 数 加 载 到 RCX 寄存 
器 中 。 此 例 中 负数 -2000 的 机 器 码 也 是 32 位 的 ， 在 执行 时 也 同样 先 被 扩展 为 带 符号 的 64 位 
整数 ， 然 后 保存 在 RCX 中 。 接 下 来 的 例子 中 ， 指 令 add rex, -1000 也 会 自动 扩展 出 一 个 64 
位 的 -1000。 





ik: 机 器 码 中 加 下 划 线 的 是 立即 数 。 
网 17-4 带 立即 数 的 64 位 寄存 器 示例 


第 三 个 例子 中 ， 先 是 用 指令 mov rdx, 0ffh 初始 化 寄存 器 RDX， 然 后 执行 or rdx, 8000- 
00000h。 些 时， 立即 数 0x80000000 将 被 扩展 为 0xFFFFFFFF80000000， 然 后 执行 逻辑 或 
运算 。RDX 中 得 到 最 终结 果 ， 显 然 不 是 我 们 期 望 的 。 最 后 一 个 例子 则 演示 了 如 何 正确 地 
使 用 64 位 立即 数 。 前 面 已 经 提 到 过 ， 只 有 mov 指令 能 支持 64 位 立即 数 。 所 以 ，mov r8, 
80000000h 指令 能 正确 地 把 64 位 数 0x0000000080000000 加 载 到 R8 中 。 这 个 例子 最 后 执行 
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的 or rdx, r8 指令 将 能 得 到 正确 的 结果 . 

立即 数 的 32 位 宽 限 制 同样 适用 于 jmp 和 call 指令 ， 二 者 需 指 定 目 标 地 址 的 相对 偏 移 
值 。 在 此 情况 下 ，jmp 或 call 指令 的 目标 地 址 偏 移 值 ， 必 须 在 RIP 值 的 «2GB 以 内 。 程 序 
跳 转 的 时 候 ， 如 果 要 超出 此 范围 ， 只 能 使 用 间接 操作 数 (比如 ，jmp qword ptr[FuncPtr] 或 
call rax)。 和 RIP 相对 寻 址 类 似 ， 我 们 在 此 讨论 的 立即 数 宽度 限制 ， 对 于 大 多 数 的 程序 不 会 
产生 实质 性 影响 。 

x86-32 和 x86-64 之 间 的 另 一 个 区 别 涉及 64 位 寄存 器 的 高 32 位 。 当 有 些 指令 使 用 32 
位 寄存 器 和 操作 数 的 时 候 ，64 位 通用 寄存 器 的 高 32 位 将 在 执行 过 程 中 清 零 。 比 如 ， 假 
设 寄 存 器 RAX 包 含 值 0x8000000000000000。 执 行 指 令 add eax, 10 后 ， 将 导致 RAX 的 
值 变 为 0x000000000000000A。 但 是 ， 当 执行 8 位 或 16 位 寄存 器 和 操作 数 运算 时 ， 其 对 
应 的 64 位 通用 寄存 器 的 高 56 位 或 高 48 位 却 并 不 会 被 清 零 或 修改 。 再 假设 RAX 的 当前 
值 为 0x8000000000000000， 执 行 指令 add al, 20 3X add ax, 40 后 ，RAX 的 值 将 分 别 变 成 
0x8000000000000014 或 0x80000-00000000028.. 

x86-64 fil x86-32 之 间 最 后 值得 一 提 的 区 别 与 8 位 寄存 器 AH、BH、CH 和 DH 有关。 这 
几 个 8 位 寄存 器 不 可 以 用 在 使 用 了 新 的 8 位 寄存 器 ( 即 SIL、DIL、BPL、SPL fil R8B-15B) 
的 指令 中 。 在 x86-64 程序 中 还 可 以 使 用 原来 的 8 位 寄存 器， 如 mov ah, bl 和 add dh, bl。 不 
过 mov ah, r8b 和 add dh, r8b 这 样 的 指令 是 非法 的 。 


17.3 ”指令 集 概览 


本 节 将 浏览 x86-64 指令 集 ， 先 对 基本 的 指令 使 用 进行 综述 ， 然 后 针对 x86-64 模式 下 不 
再 使 用 的 指令 进行 总 结 。 接 下 来 再 快速 检视 一 下 x86-64 模式 下 全 新 或 变化 的 指令 。 本 节 的 
最 后 ， 会 讨论 在 x86-64 模式 下 不 再 使 用 的 若干 计算 资源 。 


17.3.1 基本 指令 使 用 


实际 上 ，x86-64 指令 集 是 对 x86-32 的 逻辑 扩展 ， 即 对 大 多 数 x86-32 指令 进行 了 升级 ， 
以 支持 64 位 操作 数 。 指 令 集 是 向 下 兼容 的 ， 用 64 位 汇编 语言 编写 函数 时 ， 仍 可 以 使 用 8 
位 、16 位 或 32 位 的 操作 数 。 表 17-3 描述 了 此 种 情况 。 请 注意 ， 表 中 的 例子 涉及 的 指令 在 
使 用 内 存 操作 数 时 ， 都 是 用 64 位 寄存 器 引用 其 内 存 地 址 的 ， 因 为 这 样 就 能 访问 到 全 部 的 64 
位 有 效 地 址 空间 。 但 你 也 可 以 在 x86-64 模式 下 ,用 32 位 寄存 器 引用 内 存 操作 数 的 内 存 地 址 
(比如 指令 mov r10, [eax])， 其 局 限 性 就 是 被 引用 的 操作 数 仅 能 位 于 64 位 有 效 地 址 空间 的 低 
4GB 部 分 。 所 以 ， 我 们 不 推荐 在 x86-64 模式 下 使 用 32 位 寄存 器 访问 内 存 操作 数 ， 以 免 在 编 
人 码 时 引入 不 必要 的 混乱 ， 以 及 在 软件 测试 和 调试 时 增加 不 必要 的 复杂 性 。 


表 17-3 使 用 不 同 长 度 操作 数 的 x86-64 指令 示例 


8 位 16 位 32 位 64 位 
add al,bl add ax,bx add eax,ebx add rax,rbx 
emp dl,[r15] cmp dx,[r15] cmp edx,[r15] emp rdx,[r15] 
mul r10b mul rl0w mul rl0d mul r10 
or [r8+rdi],al or [r8+rdi*2],ax or [r8+rdi*4],eax or [r8-rdi*8],rax 


shl r9b,cl shl r9w,cl shl r9d,cl shl r9,cl 
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我 们 在 第 1 章 中 对 大 部 分 x86-32 指令 的 描述 ， 同 样 适用 于 其 对 应 的 x86-64 指令 。Intel 
和 AMD 公司 公布 的 指令 参考 手册 中 有 关于 这 些 x86-64 指令 的 更 多 介绍 ， 用 户 可 以 从 其 网 
站 下 载 参考 手册 。 


17.3.2 HT 
T RITA LUI GI LM 


一 些 x86-32 下 很 少 用 到 的 指令 ， 在 x86-64 Bi 助 记 符 描述 
式 下 被 放弃 了 。 表 17-4 列 出 了 这 些 指令 。 让 人 人 惊 aaa 加 法 后 ASCII 调整 
讶 的 是 ， 早 期 的 x86-64 处 理 器 在 x86-64 模式 下 竞 aad 除法 前 ASCII 调整 
然 是 不 支持 lahf (把 标志 寄存 器 的 值 加 载 到 AH 寄 aam 乘法 后 ASCIL 调整 
FERE) 和 sahf (把 AH 的 值 保存 到 标志 寄存 器 ) 指 UH Pu 
令 的 ; 但 在 x86-32 模式 下 却 支持 。 幸 运 的 是 , o em coe 
概 2006 年 以 后 ， 这 些 指令 陆续 在 大 多 数 的 AMD das DLE Lieb 
和 Intel 处 理 器 中 恢复 使 用 了 。 程 序 可 通过 测试 into 4: EFLAGS.OF 为 1 中 断 
cpuid 特性 标志 位 LAHF/SAHF 来 判断 处 理 器 在 popa/popad 弹出 所 有 通用 寄存 器 
x86-64 模式 下 是 否 支持 lahf 和 sahf 这 两 条 指令 。 pusha/pushad = 压 人 所 有 通用 寄存 器 


17.3.3 ”新 指令 


x86-64 指令 集 包 含 一 些 可 对 64 位 宽 操 作 数 进行 运算 的 新 指令 ， 同时， 对 既 存 的 部 分 指令 的 
行为 进行 了 修改 。 表 17-5 总 结 了 这 些 指 令 ， 缩 写 GPR 代表 通用 寄存 器 (General-Purpose Register). 


Æ 17-5 x86-64 新 指令 


助 记 符 描 R 

cdge 对 EAX 中 的 双 字 值 进行 符号 扩展 并 将 结果 保存 到 RAX 

cmpsb 

mes 比较 寄存 器 RSI 和 RDI 指向 的 内 存 地 址 中 的 值 ， 设 置 状态 标志 来 指示 结果 
cmps 

cmpsq 

cmpxchgl6b 用 16 位 内 存 操作 数 比较 RDX:RAX， 根 据 结果 进行 交换 

cqo 将 RAX 的 内 容 符号 扩展 到 RDX:RAX 

jrcxz 如 果 条 件 RCX==0 为 真 跳 转 到 指定 的 内 存 地 址 

lodsb 

lod: 

ee 将 寄存 器 RSI 指向 的 内 存 地 址 中 的 值 加 载 到 AL. AX, EAX È RAX 寄存 器 
ods 

lodsq 

movsb 

med 将 寄存 器 RSI 指定 的 内 存 地 址 中 的 值 拷贝 到 寄存 器 RDI 指定 的 内 存 地 址 

movs 

movsq 

movxsd 拷贝 并 符号 扩展 源 操作 数 中 的 双 字 值 ， 并 将 其 保存 到 目标 操作 数 
弹出 栈 顶 元 素 。 该 指令 拷贝 RSP 指向 的 内 存 地 址 的 内 容 到 指定 的 GPR 或 内 存 地 址 ， 

p3p RSP 自动 调整 以 反映 弹出 操作 。 该 指令 不 能 使 用 32 位 宽 的 操作 数 

pool 弹出 栈 顶 双 字 ， 并 将 低位 双 字 保存 到 RFLAGS 的 低 32 位 。RFLAGS 的 高 32 位 设置 


为 0。 该 指令 不 能 修改 RFLAGS 中 的 保留 位 和 特定 的 控制 位 
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( 续 ) 
助 记 符 H 述 

将 GPR 、 内 存 地 址 或 立即 数 压 入 栈 ，RSP 自动 调整 以 反映 压 人 操作 。 该 指令 不 能 使 
me 用 32 位 宽 的 操作 数 
pushfq 将 RFLAGS 压 入 栈 501 
rep 
repe/repz RCX! =0 和 指定 的 比较 条 件 为 真 时 ， 重 复 指定 的 字符 串 指 令 
repne/repnz 
scasb 
scasw 将 寄存 器 RDI 指定 的 内 存 地 址 值 与 寄存 器 AL, AX, EAX 或 RAX 中 的 值 进行 比较 ， 
scasd 基于 比较 结果 设置 状态 标志 
scasq 
stosb 
— 将 寄存 器 AL、AX、EAX 或 RAX 中 的 内 容 保存 到 寄存 器 RDI 指定 的 内 存 地 址 


stosd 


stosq 


17.3.4 不 鼓励 使 用 的 资源 

支持 x86-64 指令 集 的 处 理 器 也 包括 SSE2 计算 资源 。 这 表示 x86-64 程序 可 以 安全 地 使 
用 SSE2 的 组 合 整 型 数 的 能 力 ， 以 代替 MMX。 这 也 意味 着 ，x86-64 程序 可 以 使 用 SSE2 的 
标量 型 浮 点 数 资源 来 替代 x86 FPU。 在 x86-64 执行 环境 下 ， 程 序 仍 可 以 使 用 MMX 和 x87 
FPU 的 指令 集 。 在 对 遗留 代码 进行 迁徙 的 过 程 中 ， 这 会 很 方便 。 但 对 于 新 开发 的 软件 ， 我 们 
不 再 推荐 使 用 MMX 和 x87 FPU, 


17.4 ”总结 
这 一 章 中 ， 我 们 学 习 了 x86-64 平台 的 核心 架构 ， 包 括 它 的 执行 单元 、 通 用 寄存 器 、 指 
令 操 作 数 和 内 存 寻 址 模式 。 我 们 也 学 习 了 x86-64 和 x86-32 这 两 个 执行 环境 之 间 的 区 别 ， 以 
及 它们 的 指令 集 之 间 的 关联 。 在 第 18 章 ， 我 们 将 通过 示例 代码 学 习 x86-64 汇编 语言 编程 的 
基础 部 分 。 502 
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通过 前 一 章 ， 我 们 已 经 学 习 了 x86-64 平台 的 核心 架构 ,包括 执 行 单 元 、 通 用 寄存 器 、 
指令 操作 数 和 内 存 寻 址 模式 。 对 x86-32 和 x86-64 的 执行 环境 以 及 各 自 指令 集 之 间 的 差别 ， 
也 有 了 和 较 深刻 的 理解 。 在 这 一 章 中 ， 我 们 将 专注 于 x86-64 汇编 语言 编程 的 基础 知识 。 
本 章 的 内 容 安排 如 下 : 
e 18.1 节 介 绍 x86-64 汇编 语言 编程 的 基础 知识 ， 包 括 如 何 进行 整 型 数 算术 运算 ， 如何 
使 用 各 种 内 存 寻 址 模式 ， 以 及 如 何 执 行 标 量 浮 点 数 算术 运算 。 
e 18.2 15 [EXE 4i x86-64 汇编 语言 的 函数 时 所 需 注意 的 调用 约定 ， 以 便 它 能 被 高 级 语 
言 (如 C++) 正确 地 调用 。 
e 18.3 节 展 示 在 x86-64 中 使 用 数组 和 文本 串 的 一 些 编程 技巧 。 
本 章 所 有 的 示例 代码 都 需 运行 在 x86-64 兼容 的 处 理 器 和 操作 系统 上 。 


18.1 x86-64 编程 基础 


本 节 将 介绍 x86-64 汇编 语言 编程 的 若干 要 点 。 首 先 我 们 简要 介绍 从 C++ 程序 调用 汇编 
语言 函数 所 需 遵循 的 调用 约定 。 然 后 以 一 个 示例 程序 来 演示 如 何 利 用 x86-64 指令 集 实现 基 
本 的 整数 算术 运算 。 第 二 个 示例 程序 对 各 种 常用 的 内 存 寻 址 模式 分 别 进行 说 明 。 最 后 的 两 个 
示例 程序 演示 如 何在 x86-64 函数 中 使 用 整 型 操作 数 ， 以 及 进行 标量 浮 点 数 算术 运算 。 

和 32 位 编程 类 似 ，Visual C++ 64 位 运行 时 环境 为 x86-64 汇编 语言 函数 定义 了 一 个 必 
须 遵守 的 调用 约定 。 调 用 约定 指定 处 理 器 的 每 一 个 通用 寄存 器 是 易 变 的 还 是 非 易 变 的 。 它 也 
给 各 个 XMM 寄存 器 进行 了 易 变 或 非 易 变 的 分 类 。x86-64 汇编 语言 函数 可 以 修改 任 一 易 变型 
寄存 器 的 内 容 ， 但 必须 确保 非 易 变 寄 存 器 的 内 容 不 被 修改 。 表 18-1 列 出 了 64 位 易 变 和 非 易 
变 寄存 器 。Visual C++ 调用 约定 的 其 他 方面 将 在 本 章 中 陆续 地 讲解 ， 附 录 B 包含 了 一 份 关于 
调用 约定 的 完整 总 结 。 


表 18-1 Visual C++ 64 位 易 变 和 非 易 变 寄存 器 


寄存 器 类 型 易 变 寄存 器 非 易 变 寄存 器 
General-purpose RAX, RCX, RDX, R8, R9, RBX, RSI, RDI, RBP, RSP, 
R10, R11 R12, R13, R14, RIS 
X86-SSE XMM XMMO0-XMMS5 XMM6-XMMIS 


在 支持 x86-AVX 的 系统 中 ， 每 个 YMM 寄存 器 的 高 128 位 被 划分 为 易 变 的 。Visual 
C++ 64 位 程序 一 般 很 少 使 用 x87 FPU， 如 果 使 用 的 话 ，x86-64 汇编 语言 函数 不 需要 维持 
x87 FPU 寄存 器 栈 的 内 容 不 变 ， 也 就 是 说 ， 整 个 寄存 器 栈 都 是 易 变 的 。 

和 32 位 调用 约定 相 比 ，Visual C++ 64 位 调用 约定 对 汇编 语言 函数 所 规定 的 编程 要 求 更 
为 严格 。 根 据 函 数 是 叶 函 数 还 是 非 叶 函 数 ， 编 程 要 求 也 有 所 变化 。 叶 函数 被 定义 为 : 
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e. 不 调用 任何 其 他 函数 。 

e 不 修改 RSP 寄存 器 的 值 。 

e 不 申请 任何 栈 空 间 。 

e 不 修改 任何 非 易 变型 通用 寄存 器 或 XMM 寄存 器 。 

e 不 使 用 异常 处 理 。 

x86-64 汇编 语言 叶 函 数 更 易于 编写 ， 但 仅 适 合 完成 相对 简单 的 计算 任务 。 非 叶 函 数 能 
使 用 所 有 的 x86-64 寄存 器 ， 创 建 栈 帧 ， 从 栈 上 申请 空间 ， 或 调用 别 的 函数 一 一 只 要 它 能 完 
全 遵从 调用 约定 所 定义 的 函数 序言 和 结语 。 本 节 中 的 示例 代码 包含 了 若干 叶 函 数 ， 以 阐明 
x86-64 汇编 语言 编程 的 基础 。 我 们 将 在 本 章 的 后 面 学 习 如 何 创建 非 叶 函数 。 


18.1.1 整数 算术 运算 


我 们 将 要 考察 的 第 一 个 示例 程序 叫 作 IntegerArithmetic， 演 示 如 何 使 用 x86-64 指令 集 来 
实现 基本 的 整 型 数 算术 运算 。 这 个 示例 程序 也 演示 了 如 何 通 过 调用 约定 来 指定 由 C++ 函数 
向 汇编 语言 函数 传递 参数 值 。 清 单 18-1 和 清单 18-2 分 别 列 出 了 示例 程序 Integer-Arithmetic 
的 C++ 和 汇编 语言 源 代码 。 


清单 18-1 IntegerArithmetic.cpp 


#include "stdafx.h" 
#include "MiscDefs.h" 


extern "C" Int64 IntegerAdd (Int64 a, Int64 b, Int64 c, Int64 d, Int64 e,~ 
Int64 f); 

extern "C" Int64 IntegerMul (Int8 a, Int16 b, Int32 c, Int64 d, Int8 e,~ 
Int16 f, Int32 g, Int64 h); 

extern "C" void IntegerDiv (Int64 a, Int64 b, Int64 quo rem ab[2], Int64 c,~ 
Int64 d, Int64 quo rem cd[2]); 


void IntegerAdd(void) 


Int64 a - 100; 
Int64 b - 200; 
Int64 c - -300; 
Int64 d - 400; 
Int64 e - -500; 
Int64 f - 600; 


WtHat+b+c+dtrer+f 
Int64 sum = IntegerAdd (a, b, c, d, e, f); 


printf("\nResults for IntegerAdd\n"); 
printf("a: %51ld b: X51ld c: %51ld\n", a, b, c); 
printf("d: X51ld e: X51ld f: %51ld\n", d, e, f); 
printf("sum: ZlldWn", sum); 

) 


void IntegerMul(void) 


Int8 a = 2; 
Int16 b = -3; 
Int32 c = 8j 
Int64 d - 4; 
Int8 e = 3; 
Int16 f = -7; 


504 


506 


356 
Int32 g = -5; 
Int64 h - 10; 
H X a*b*c*d*e*f*g*h 
Int64 result - IntegerMul (a, b, c, d, e, f, g, h); 
printf("\nResults for IntegerMul n"); 
printf("a: 45d b: %5d c: X5d d: %51ld\n", a, b, c, d); 
printf("e: %5d f: %5d g: %5d h: %51ld\n", e, f, g, h); 
printf("result: %51ld\n", result); 

} 


void IntegerDiv(void) 


Int64 a = 102; 

Int64 b = 7; 

Int64 quo rem ab[2]; 
Int64 c - 61; 

Int64 d = 9; 


Int64 quo rem cd[2]; 


// 计算 a/vb 和 cyvad 
IntegerDiv (a, b, quo rem ab, c, d, quo rem cd); 


printf("\nResults for IntegerDiv An"); 

printf("a: %51ld b: %51ld ", a, b); 

printf("quo: %511d rem: *511dWn", quo rem ab[0], quo rem ab[1]); 
printf("c:  X5lld d:  X51ld ", c, d); 

printf("quo: %511d rem: %5lld\n", quo rem cd[0], quo rem cd[1]); 


} 
int tmain(int argc, _TCHAR* argv[]) 
{ 
IntegerAdd(); 
IntegerMul(); 
IntegerDiv(); 
return 0; 
} 
清单 18-2 IntegerArithmetic_.asm 
.code 


; extern "C" Int64 IntegerAdd (Int64 a, Int64 b, Int64 c, Int64 d, Int64 e,~ 
Int64 f) 


; 描述 : 下 面 的 函数 演示 了 64 位 整数 加 法 
IntegerAdd proc 


; 计算 参数 之 和 


add rcx,rdx jrcx = a+b 

add r8,r9 jy8=c+d 

mov rax,[rsp+40] ;rax =e 

add rax,[rsp+48] ;rax =e +f 

add rcx,r8 Jrcx =a+b+c+d 

add rax,rcx ;rax =a+b+c+d+e+f 
ret 


IntegerAdd endp 
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; extern "C" Int64 IntegerMul (Int8 a, Int16 b, Int32 c, Int64 d, Int8 e, 
Int16 f, Int32 g, Int64 h); 


; 描述 : 下 面 的 函数 演示 了 ca 位 带 符号 整数 乘法 运算 


IntegerMul proc 


;计算 a * b 
movsx r10,cl ;r10 = sign extend(a) 
movsx r11,dx ;r11 = sign extend(b) 
imul r10,r11 ;r10-a*b 

sd Xe * d 
movsxd rcx,r8d 3rcx = sign extend(c) 
imul rcx,r9 Ara «c * d 

;计算 e * F 
movsx r8,byte ptr [rsp+40] ;18 - sign extend(e) 
movsx r9,word ptr [rsp+48] jr9 = sign extend(f) 
imul r8,r9 3x8 =e * f 

;计算 g*h 
movsxd rax,dword ptr [rsp+56] ;rax - sign extend (g) 
imul rax,[rsp464] ;rax = g *h 


; 计算 得 到 最 终结 果 


imul r10,rcx avid ew * b* g Fd 
imul rax,r8 rax =e F f Eg Eh 
imul rax,r10 ;rax - final product 
ret 


IntegerMul endp 


; extern "C" void IntegerDiv (Int64 a, Int64 b, Int64 quo rem ab[2], = 
Int64 c, Int64 d, Int64 quo rem cd[2]); 


; 描述 : 下 面 的 函数 演示 了 64 位 带 符号 整数 除法 运算 507 


IntegerDiv proc 


; 计算 a/b, 保存 商 和 余数 


mov [rsp+16],rdx ;保存 b 
mov rax,rcx ;rax = a 
cqo ;rdx:rax - sign extend(a) 
idiv qword ptr [rsp+16] ;rax - quo a/b, rdx - rem a/b 
mov [r8],rax ;保存 商 
mov [r848],rdx ;保存 余数 
; 计算 c/d, 保存 商 和 余数 
mov rax,r9 ;rax = c 
cqo ;rdx:rax = sign_extend(c) 
idiv qword ptr [rsp+40] ;rax = quo c/d, rdx = rem c/d 
mov r10, [rsp+48] ;r10 = 指向 quo_rem_cd 
mov [r10],rax ;保存 商 
mov [r10+8],rdx ;保存 余数 
ret 
IntegerDiv endp 
end 


C++ 源 文件 IntegerArithmetic.cpp( 见 清单 18-1) 包含 的 头 文件 MiscDefs.h 中 以 typedef 
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声明 的 形式 定义 了 一 系列 不 同 长 度 的 整数 类 型 。 这 个 头 文件 与 32 位 C++ 示例 代码 使 用 的 是 
同一 个 。IntegerArithmetic.cpp 剩余 部 分 包含 三 个 简单 的 函数 ， 分 别 用 于 测试 变量 初始 化 ， 
执行 水 数 ， 以 及 呈现 结果 。 这 几 个 函数 的 主要 目的 是 为 了 演示 64 位 参数 传递 、 栈 的 布局 以 
及 64 位 整数 算术 运算 。 

清单 18-2 是 示例 程序 IntegerArithmetic 的 汇编 语言 源 代码 。IntegerArithmetic_asm 源 文件 
的 开头 是 一 个 .code 指示 符 ， 用 来 定义 代码 段 的 起 始 。x86-32 汇编 源码 中 用 到 的 model 指示 符 ， 
在 64 位 版 本 的 MASM 中 已 不 需要 了 ， 也 不 再 被 支持 。 声 明 IntegerAdd_proc 定义 了 汇编 语言 
PRX mntegerAdd_ 的 人 口 点 。 而 对 应 地 ， 在 此 函数 的 结尾 处 由 IntegerAdd endp 声明 。 

64 位 的 Visual C++ 函数 的 前 4 个 参数 通过 寄存 器 RCX, RDX, R8 和 RO 传递 ， 如 有 更 
多 参数 ， 则 通过 栈 来 传递 。Visual C++ 的 64 位 调用 约定 要 求 函 数 调用 者 在 栈 上 分 配 32 字 节 
空间 ， 给 被 调 函 数 使 用 。 这 段 未 经 初始 化 的 栈 空间 称 作 备份 空间 (home area)， 其 主要 作用 
是 给 寄存 器 参数 作 暂 存 空 间 。 但 被 调 函 数 也 可 将 此 备份 空间 用 于 存储 其 他 变量 。 需 注意 的 
是 ,不 管 传递 多 少 个 参数 ， 调 用 者 都 必须 申请 32 字 节 的 备份 空间 。 图 18-1 Ez TEHA PR 
数 IntegerAdd_ 时 栈 的 布局 和 参数 寄存 器 的 内 容 。 

函数 IntegerAdd 将 6 个 64 位 带 符 高 内 存 
号 的 整 型 参数 相 加 作为 结果 返回 。 它 的 地 址 
前 两 条 指令 add rcx, rdx 和 add r8, r9 分 
别 对 应 于 a+b 和 c+d 的 加 法 和 运算。 指令 
mov rax, [rsp+40] 将 参数 ee 加载 到 寄存 






器 RAX， 后 面 的 指令 add rax, [rsp+48] 一 
用 来 计算 erf。 接 下 来 的 两 条 指令 add MINE 


rcx, r8 和 add rax, rex 最 终 计 算出 6 个 栈 寄存 器 
参数 的 和 。64 位 汇编 语言 函数 通过 寄存 图 18-1 进入 函数 IntegerAdd 时 的 栈 布局 和 寄存 器 值 
it RAX 返回 一 个 64 位 整 型 数 给 调用 者 。 此 时 ， 因 为 RAX 已 是 最 终 的 计算 结果 ， 就 无 须 再 
使 用 mov 指令 了 。IntegerAdd 的 最 后 一 条 指令 是 函数 返回 指令 ret; 

接 下 来 的 汇编 语言 函数 IntegerMul 演示 了 如 何 进行 整数 的 乘法 运算 。 图 18-2 展示 了 在 
进入 函数 IntegerMul_ 时 栈 的 布局 和 参数 寄存 器 的 值 。 请 注意 ， 不 管 是 通过 寄存 器 还 是 栈 传 
递 的 参数 ， 当 长 度 小 于 64 位 时 ， 需 进行 右 对齐 ， 高 位 空 出 的 部 分 是 未 定义 的 。 





寄存 器 





图 18-2 进入 IntegerMul 函数 时 的 栈 布 局 和 寄存 器 值 
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函数 IntegerMul 用 来 计算 8 个 带 符 号 整 型 参数 的 乘积 。 首 先是 指令 movsx r10, cl 把 参 
数 a 进行 符号 扩展 并 加 载 到 寄存 器 R10。 后 面 的 指令 movsx r11, dx 对 参数 b 执行 类 似 操作 。 
接 下 来 的 指令 imul r10, r11 是 计算 a * b。 再 后 面 的 两 条 指令 movsxd rcx, r8d 和 imul rcx, r9 
用 来 计算 c*d。 请 注意 ，x86-64 指令 集 特地 定义 了 一 个 助 记 符 ( movsxd)， 用 来 实现 32 位 值 
到 64 位 寄存 器 的 符号 扩展 移动 。 接 下 来 用 一 系列 的 movsx、movsxd fil imul 指令 实现 了 e* 
f 和 g * h， 作 为 中 间 结 果 人 保存。 参数 变量 e、f、g Mh 都 位 于 栈 上 ， 通 过 RSP 寄存 器 加 一 个 
常量 偏 移 来 引用 它们 。 最 后 面 的 三 个 iml 指令 ， 计 算出 最 终 的 64 位 结果 。 

最 后 一 个 汇编 语言 函数 是 IntegerDiv_， 演 示 了 如 何 进行 64 位 带 符号 的 整数 除法 运算 。 
图 18-3 展示 了 在 进入 IntegerDiv_ 函数 时 的 栈 布 局 。 也 数 的 第 一 条 指令 mov [rsp+16], rdx 把 
寄存 器 RDX 的 值 ( 即 变 量 b) 保存 到 栈 的 备份 空间 中 。 后 面 一 条 指令 mov rax, rcx 把 被 除数 
a 拷贝 到 寄存 右 RAX。 指 令 cqo (Convert Quandword to Double Quadword， 将 四 字 转 换 为 双 
四 字 ) 把 寄存 器 RAX 中 的 值 符号 扩展 到 寄存 器 对 RDX:RAX 中 。 接 下 来 的 指令 idiv qword 
ptr[rsp+16]， 是 用 qword ptr[rsp+16] 的 值 除 以 寄存 器 对 RDX:RAX 的 值 ( 即 a/b)。idiv 指令 
执行 之 后 ， 寄 存 器 RAX 和 RDX 将 分 别 保存 除法 运算 的 商 和 余数 。 这 两 个 值 保 存 到 一 个 由 
寄存 器 R8 指定 的 返回 值 数组 中 ，R8 所 对 应 的 参数 变量 是 quo_rem_ab。 再 后 面 的 一 段 指 令 
采用 类 似 的 方式 计算 c/d。 输 出 18-1 列 出 了 示例 程序 IntegerArithmetic 的 运行 结果 。 





寄存 器 
18-3 进入 IntegerDiv 晴 数 时 的 栈 布局 和 寄存 器 值 


输出 18-1 示例 程序 IntegerArithmetic 


Results for IntegerAdd 

a: 100b: 200c: -300 
d: 400 e: -500 f: 600 
sum: 500 


Results for IntegerMul 


a: 2 b: -3c: 8 d: 4 

et 3 f: -7 g: 5 h: 10 

result: -201600 

Results for IntegerDiv 

a: 102 b: 7 quo: 14 rem: 4 
€: 61 d: 9 quo: 6 rem: y 


18.1.2 ”内 存 寻 址 
下 面 的 示例 程序 MemoryAddressing 将 对 各 种 常用 的 x86-64 内 存 寻 址 模式 进行 演示 。 
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这 个 示例 是 第 2 章 中 曾 介 绍 过 的 同名 程序 的 64 位 版 本 。 清 单 18-3 和 清单 18-4 是 64 位 版 本 
MemoryAddressing 的 实现 源码 。 


清单 18-3 MemoryAddressing.cpp 
#include "stdafx.h" 


extern "C" int NumFibVals , FibValsSum ; 
extern "C" int MemoryAddressing (int i, int* v1, int* v2, int* v3, int* v4); 


int tmain(int argc, _TCHAR* argv[]) 


( 
FibValsSum - 0; 
for (int i = -1; i < NumFibVals + 1; i++) 
{ 
int vi, = -1, V2 = -1, V3 = -1, V4 = =13 
int rc = MemoryAddressing (i, &v1, &v2, 8v3, 8v4); 
printf("i: %2d rc: %2d - ", i, rc); 
printf("vi: %5d v2: %5d v3: %5d v4: %5d\n", vi, v2, v3, v4); 
) 
printf("FibValsSum : %d\n", FibValsSum ); 
return 0; 
} 











清单 18-4 MemoryAddressing_.asm 
; 简单 的 查找 表 (.const 数据 段 只 读 ) 


.const 
FibVals dword 0, 1, 1, 2, 3, 5, 8, 13 

dword 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597 
NumFibVals dword ($ - FibVals) / sizeof dword 

public NumFibVals 


.data 
FibValsSum dword ? ;演示 RIP-relative 寻 址 的 值 
public FibValsSum 


.code 


; extern "C" int MemoryAddressing (int i, int* v1, int* v2, int* v3, 


int* v4); 

; 描述 : 此 函数 演示 了 用 于 访问 内 存 操作 数 的 各 种 寻 址 模式 
; 返回 : 0 = 错误 (EARE) 

3 1 = ÈJ 


MemoryAddressing proc 


; 确保 变量 i 有 效 


cmp ecx,0 

jl InvalidIndex ;如 果 i < 0 则 跳 转 

cmp ecx,[NumFibVals ] 

jge InvalidIndex 3M i >= NumFibVals_ 则 跳 转 


; 对 变量 i 进行 符号 扩展 ， 以 进行 地 址 计算 


X86-64 JH dg fg 


movsxd rcx,ecx 
mov [rsp*8],rcx 


示例 1 一 基 址 寄存 器 
mov rii,offset FibVals 
shl rcx,2 
add r11,rcx 
mov eax, [r11] 
mov [rdx],eax 


- 


示例 2 一 基 址 寄存 器 + 索引 寄存 器 
mov rii,offset FibVals 
mov rcx, [rsp«8] 
shl rcx,2 
mov eax, [r11+rcx] 
mov [r8],eax 


9 


we 


mov rii,offset FibVals 
mov rcx, [rsp+8] 

mov eax, [r11+rcx*4] 
mov [r9],eax 


wee 


mov rii,offset FibVals-42 
mov rcx, [rsp48] 

mov eax, [ri1+rcx*4+42] 
mov r10,[rsp+40] 

mov [r10],eax 


示例 5 一 RIP 相对 寻 址 
add [FibValsSum ],eax 


we 


mov eax,1 
ret 


InvalidIndex: 
XOI eax,eax 
ret 


MemoryAddressing  endp 
end 
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;对 i 进行 符号 扩展 
MRE A 


;r11 = FibVals 

SPER md Fd, 

3111 = FibVals +i * 4 
;eax = FibVals[i] 
;保存 到 v1 


;111 = FibVals 
irex = d 

sick = 1 * 4 
;eax - FibVals[i] 
;保存 到 v2 


示例 3 一 基 址 寄存 器 + 索引 寄存 器 * 放大 因子 


;r11 = FibVals 


Ped e d 
;eax - FibVals[i] 
;保存 到 v3 


示例 4 一 基 址 寄存 器 + 索引 寄存 器 * 放大 因子 + 偏 移 


;r11 = FibVals - 42 
3rCX = i 

;eax = FibVals[i] 
3710 = 指向 v4 
;保存 到 v4 


;更 新 和 
;设置 成 功 返回 码 


;设置 错误 返回 码 


在 C++ 源 代 码 文件 MemoryAddressing.cpp ( 见 清单 18-3 ) 中 ， 函 数 _tmain 有 一 个 简单 


的 循环 逻辑 ， 执 行 汇编 语言 函数 MemoryAddressing 。 它 以 变量 i 为 索引 从 一 个 32 位 整 型 
数组 中 取 值 。 在 MemoryAddressing_ 被 调用 的 过 程 中 ， 整 型 变量 v1、v2、v3 和 v4 以 各 种 
不 同 的 寻 址 模式 访问 数组 。 这 些 值 再 通过 printf 显示 出 来 ， 以 供 对 比 。 

汇编 源 文件 MemoryAddressing .asm ( 见 清单 18-4) 在 一 开始 定义 了 一 个 数组 FibVals, 
该 数组 包含 了 一 组 32 位 整数 常量 ， 可 通过 不 同 的 内 存 寻 址 模式 进行 访问 。 文 件 接 下 来 定义 
了 一 个 .data 数据 段 ， 里 面 定 义 了 一 个 32 位 整 型 数 FibValsSum_， 程 序 将 会 借助 它 来 实现 
RIP 相对 寻 址 。 函 数 MemoryAddressing_ 先 对 参数 i (通过 ECX 寄存 器 传递 ) 进行 有 效 性 判 
Wi. di movsxd rex, ecx 将 32 位 的 变量 i 符号 扩展 到 64 位 ， 扩 展 是 有 必要 的 ， 因 为 i 将 被 
用 于 计算 FibVals 成 员 的 64 位 地 址 。 接 着 ，RCX 的 值 被 保存 在 栈 的 备份 空间 中 ， 以 供 后 用 。 

MemoryAddressing | 函数 剩 下 部 分 的 指令 就 是 以 各 种 不 同 的 寻 址 模式 来 访问 指定 的 
FibVals 成 员 变量 。 这 里 用 到 的 各 种 寻 址 模式 ， 本 质 上 和 32 位 版 本 的 MemoryAddressing | P 
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数 都 是 一 样 的 ， 只 是 使 用 的 是 64 位 的 地 址 寄存 器 。 请 注意 ， 在 指令 mov rll, offset FibVals 


中 使 用 的 是 64 位 立即 数 ， 除 此 之 外 ，x86-64 所 有 的 其 他 指令 都 只 能 使 用 32 位 立即 数 ， 这 一 


点 我 们 在 第 17 章 中 已 经 讨论 过 了 。 指 令 cmp ecx, [NumFibvals ] fil add [FibValsSum ], eax 
使 用 的 是 RIP 相对 寻 址 模式 。 输 出 18-2 列 出 了 示例 程序 MemoryAddressing 的 运行 结果 。 


输出 18-2 示例 程序 MemoryAddressing 


i: -1 rc: O = vi: -1 v2: -1 v3: -1 v4: -1 
is 0 fci 1 - v1: 0 v2: 0 v3: 0 v4: 0 
i: i1 dc: 1 - Vis 1 v2: 1 v3: 1 v4: 1 
i: 2 rci 1- vii 1 v2: 1 v3: 1 v4: 1 
i: 3 xcv 1- vis 2 v2: 2 v3: 2 v4: 2 
dis 4 rcs Ba ves 3 v2: 3 v3: 3 v4: 3 
lt: $ rcs í= vi: 5 v2: 5 v3: 5 v4: 5 
is 5 rcs 1- wi 8 v2: 8 v3: 8 v4: 8 
lt 7 Yee 1- vi: 13 v2: 13 v3: 13 v4: 13 
ig 8 xc: 1 NL 21 v2: 21 v3: 21 v4: 21 
is 9 ret T= yis 34 v2: 34 v3: 34 v4: 34 
i: 10 Tes 1 - v1: 55 v2: 55 v3: 55 v4: 55 
is di rc: 1 = vi: 89 v2: 89 v3: 89 v4: 89 
i: 12 rc: 1- v4: 144 v2: 144 v3: 144 v4: 144 
i: 13 rc: 1- v1: 233 v2: 233 v3: 233 v4: 233 
i: 14 rc: 1- v1: 377 v2: 377 v3: 377 v4: 377 
i: 15 rc: 1- v1: 610 v2: 610 v3: 610 v4: 610 
i: 16 rc: 1- v1: 987 v2: 987 v3: 987 v4: 987 
i: 17 rc: 1- vi: 1597 v2: 1597 v3: 1597 v4: 1597 
i: 28 rcs D = vi: -1 v2: -1 v3: -1 v4: -1 
FibValsSum : 4180 


18.1.3” 整 型 操作 数 


大 多 数 的 x86-64 指令 可 使 用 变 长 的 操作 数 ， 长 度 范围 在 8 位 到 64 位 之 间 。 示 例 程 序 
IntegerOperands 演示 了 如 何 对 不 同 长 度 的 整 型 数 进行 位 运算 。 清 单 18-5 和 清单 18-6 分 别 包 
含 了 本 示例 程序 的 C++ 和 汇编 语言 源 代 码 。 


清单 18-5 IntegerOperands.cpp 


#include "stdafx.h" 
#include "MiscDefs.h" 


// 下 面 的 结构 体 定义 必须 和 IntegerOperands .asm 中 声明 的 一 臻 
typedef struct 


( 
Uint8 a8; 
Uint16 a16; 
Uint32 a32; 
Uint64 a64; 
Uint8 b8; 
Uint16 b16; 
Uint32 b32; 
Uint64 b64; 

) ClVal; 


extern "C" void Calclogical (ClVal* cl val, Uint8 c8[3], Uint16 c16[3],~ 
Uint32 c32[3], Uint64 c64[3]); 


int tmain(int argc, TCHAR* argv[]) 


X86-64 A v Ig FE 


ClVal x; 

Uint8 c8[3]; 
Uint16 c16[3]; 
Uint32 c32[3]; 
Uint64 c64[3]; 


x.a8 - Ox81; x.b8 = 0x88; 
x.a16 = OxFOFO; x.b16 = OxOFFO; 
X.a32 = 0x87654321; x.b32 = OxFOOOFOOO; 


x.a64 = OxOO00FFFF00000000; x.b64 = 


Calclogical (&x, c8, c16, c32, c64); 


Ox0000FFFF00008888; 


printf("\nResults for CalcLogical()\n"); 


printf("\n8-bit operations n"); 

printf("0x%02X & Ox%02X = Ox%O2X\n", x 
printf("oxXo2X | 0x%02X 
printf ("Ox%02X ^ Ox%02X 


printf("\n16-bit operations\n") ; 
printf ("Ox%04X & Ox%04X = Ox%04X\n", 


x 


printf("oxX04X | Ox%04X = Ox%04X\n", x. 
printf("0x%04X ^ Ox%04X = Ox%O4X\n", x. 


printf("\n32-bit operations\n"); 


printf("oxX08X & 0x%08X = Ox%O8X\n", x. 
= Ox%08X\n", x. 
printf("ox408X ^ OxX08X = 0x%08X\n", x. 


printf("ox408X | 0x%08X 


printf("\n64-bit operations Wn"); 
printf("ox401611X & 0x%01611X 
printf("oxX01611X | 0x%01611X 
printf("0x%01611X ^ 0x%01611X 


return 0; 


清单 18-6 IntegerOperands_.asm 


Ox%02X\n", x. 
Ox%02X\n", x. 


.a8, x.b8, c8[0]); 


a8, x.b8, c8[1]); 
a8, x.b8, c8[2]); 


.316, x 


a16, x 
a16, x 


a32, X 
332, X 
a32, X 


.b16, 
.b16, 
.b16, 


.b32, 
.b32, 
.b32, 


c16[0]); 
c16[1]); 
c16[2]); 


c32[0]); 
c32[1]); 
c32[2]); 


0x%01611X\n", x.a64, x.b64, c64[0]); 
0x%01611X\n", x.a64, x.b64, c64[1]); 
0x%01611X\n", x.a64, x.b64, c64[2]); 


; 下 面 声明 的 结构 体 定义 必须 和 IntegerOperands.cpp 中 声明 的 一 致 


; 请 注意 ， 为 了 符合 C++ 编译 器 关于 结构 体 成 员 变量 的 对 齐 要 求 ， 下 面 定义 中 含有 一 些 填充 字 节 


ClVal struct 


a8 byte ? 
padi byte ? 
a16 word ? 


a32 dword ? 
a64 qword ? 
b8 byte ? 
pad2 byte ? 
b16 word ? 
b32 dword ? 
b64 qword ? 
ClVal ends 


.code 


; extern "C" void CalcLogical (ClVal* cl val, Uint8 c8[3], Uint16 c16[3],= 


Uint32 c32[3], Uint64 c64[3]); 


2 
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; 描述 : 此 函数 演示 了 对 不 同 长 度 的 整数 进行 各 种 逻辑 操作 


CalcLogical proc 


; 8 位 逻辑 操作 


mov r10b, [rcx+ClVal.a8] 
mov r11b, [rcox4ClVal.b8] 
mov al,r10b 

and al,riib 

mov [rdx],al 

mov al,r10b 

or al,riib 

mov [rdx«1],al 

mov al,r10b 

xor al,r11b 

mov [rdx«2],al 


; 16 位 逻辑 操作 


mov rdx,r8 

mov r10w, [rcx«ClVal.a16] 
mov r11w, [rox4ClVal.b16] 
mov ax,ri0w 

and ax,riiw 

mov [rdx],ax 

mov ax,ri0w 

Or ax,riiw 

mov [rdx«2],ax 

mov ax,riOw 

XOr ax,r11w 

mov [rdx«4],ax 


; 32 位 逻辑 操作 


mov rdx,r9 

mov r10d, [rcx4ClVal.a32] 
mov riid,[rcx«ClVal.b32] 
mov eax,r10d 

and eax,r11d 

mov [rdx],eax 

mov eax,r10d 

Or eax,riid 

mov [rdx«4],eax 

mov eax,r10d 

xor eax,riid 

mov [rdx«8],eax 


; 64 位 逻辑 操作 


mov rdx, [rsp+40] 

mov r10, [rcx«ClVal.a64] 
mov r11,[rcx«ClVal.b64] 
mov rax,r10 

and rax,r11 

mov [rdx],rax 

mov rax,r10 

or rax,r11 

mov [rdx«8],rax 

mov rax,r10 

xor rax,r11 

mov [rdx416],rax 


ret 


CalcLogical_ endp 


end 


;r10b = a8 
vith = bg 
;计算 a8 & b8 


;计算 a8 | b8 


;计算 a8 ^ b8 


;rdx = 指向 c16 
;Jr10w = a16 
;111w = b16 


;计算 al6 & b16 


;计算 al6 | b16 


;计算 al6 ^ b16 


;rdx = 指向 c32 
;110d = a32 
3111d = b32 


;计算 a32 & b32 


;计算 a32 | b32 


;计算 a32 ^ b32 


;rdx = 指向 c64 
;110 - a64 
;111 = b64 


;计算 a64 & b64 


;计算 a64 | b64 


;计算 a64 ^ b64 


# 18 Ž 
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在 C++ 源 文件 IntegerOperands.cpp ( 见 清单 18-5 ) 的 开头 定义 了 一 个 结构 体 ClVal， 
它 包 含 了 各 种 标准 长 度 的 整 型 成 员 变 量 。 我 们 将 通过 这 个 结构 体 将 源 操作 数 传递 给 汇编 语 
i PAARL CalcLogical 。 在 _tmain 函数 中 创建 一 个 ClVal 结构 体 的 实例 ， 将 它 作为 参数 调用 
CalcLogical ， 并 显示 运算 结果 。 

在 汇编 源 文件 IntegerOperands_ .asm ( 见 清单 18-6 ) 中 也 声明 了 一 个 汇编 版 本 的 ClVal 
结构 体 定 义 。 在 声明 结构 体 时 ， 要 注意 的 一 点 是 ， 大 部 分 C++ 编译 器 默认 都 会 对 成 员 变 量 
进行 多 字 节 对 齐 ， 并 因此 会 进行 字 节 填充 。 在 本 示例 程序 中 ，Visual C++ 编译 器 会 自动 地 对 
成 员 变 量 a8 和 bg8 进行 字 节 填充 以 实现 对 齐 -。 但 汇编 编译 器 是 不 会 自动 对 齐 的 ， 所 以 必须 
手动 添加 填充 字 节 ， 这 是 为 什么 在 CIVal 的 汇编 实现 中 会 出 现 padl 和 pad2。 

CalcLogical_ 函数 有 四 段 代 码 块 ， 使 用 不 同 长 度 的 整 型 操作 数 进行 位 逻辑 操作 。 每 段 代 
码 的 运算 结果 被 保存 到 对 应 的 结果 数组 中 。 该 函数 也 演示 了 如 何 通过 添加 适当 的 后 缀 来 引 
用 R8 ~ R15 这 些 64 位 寄存 器 的 低 8 位 、 低 16 位 以 及 低 32 位 。 输 出 18-3 列 出 了 示例 程序 
IntegerOperands 的 执行 结果 。 


输出 18-3 ”示例 程序 IntegerOperands 
Results for CalcLogical() 


8-bit operations 

Ox81 & Ox88 - Ox80 
0x81 | 0x88 = 0x89 
Ox81 ^ Ox88 = 0x09 


16-bit operations 

OxFOFO & OxOFFO - OxOOFO 
OxFOFO | OxOFFO = OxFFFO 
OxFOFO ^ OxOFFO = oxFFoo 


32-bit operations 

0x87654321 & 0xF000F000 = 0x80004000 
0x87654321 | 0xF000F000 = OxF765F321 
0x87654321 ^ 0xF000F000 = 0x7765B321 


r Xx 


64-bit operations 

OxO0OO0FFFF00000000 & 0x0000FFFF00008888 = OxOO00FFFF00000000 
OxOOOOFFFF00000000 | OxOOOO0FFFF00008888 = OxOO00FFFF00008888 
OxOOOOFFFFOO000000 ^ 0x0000FFFF00008888 = 0x0000000000008888 


18.14 浮 点 数 运算 


在 第 17 章 ， 我 们 已 知道 所 有 x86-64 兼容 的 处 理 器 都 支持 SSE2， 并 因此 能 使 用 它 的 
标量 浮 点 数 资源 。 也 就 是 说 ， 我 们 可 以 用 XMM 寄存 器 代替 x87 FPU 进行 浮 点 运算 。 更 
进一步 ， 由 于 SSE2 的 存在 ， 我 们 可 以 用 XMM 寄存 器 传递 浮 点 参数 ， 或 从 函数 返回 浮 
点 数 。 本 节 的 示例 程序 FloatingPointArithmetic 演示 了 如 何在 x86-64 汇编 语言 函数 中 实 
现 标量 浮 点 数 运算 。 清 单 18-7 和 清单 18-8 分 别 包 含 了 本 示例 程序 的 C++ 和 汇编 语言 源 
代码 。 

O 在 这 里 ,变量 al6 和 bl16 被 定义 为 双 字 节 整 数 ， 所 以 是 应 该 对 齐 到 2 字 节 边界 的 。 但 a8 Al bs 定义 为 单 


字 节 整数 ， 需 要 增加 一 个 字 节 的 填充 才能 实现 2 字 节 对 齐 。 否则， 位 于 它们 后 面 的 变量 a16 和 bl16 就 不 
对 齐 了 。 一 一 译 者 注 
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清单 18-7 FloatingPointArithmetic.cpp 
#include "stdafx.h" 


extern "C" double CalcSum (float a, double b, float c, double d, float e,~ 
double f); 


extern "C" double CalcDist (int x1, double x2, long long y1, double y2,* 
float z1, short z2); 


void CalcSum(void) 

( 
float a - 10.0f; 
double b - 20.0; 
float c = 0.5f; 
double d - 0.0625; 
float e - 15.0f; 
double f - 0.125; 


double sum - CalcSum (a, b, c, d, e, f); 


printf("\nResults for CalcSum()\n"); 
printf("a: %10.4f b: %10.41f c: %10.4f\n", a, b, c); 
printf("d: %10.41f e: %10.4f f: %10.41f\n", d, e, f); 
printf("\nsum: %10.41f\n", sum); 

} 


void CalcDist (void) 

{ 
ilt X1 = 54 
double x2 = 12.875; 
long long y1 = 17; 
double y2 - 23.1875; 
float z1 - -2.0625; 
short z2 - -6; 


double dist = CalcDist (x1, x2, y1, y2, z1, z2); 


printf("\nResults for CalcDist()\n"); 
printf("x1: %10d x2: %10.41f\n", x1, x2); 
printf("y1: %10lld y2: %10.41f\n", yi, y2); 
printf("z1: %10.4f z2: %10d\n", z1, z2); 
printf("\ndist: %12.6lf\n", dist); 

} 


int _tmain(int argc, _TCHAR* argv[]) 
{ 

CalcSum(); 

CalcDist(); 

return 0; 


清单 18-8 FloatingPointArithmetic .asm 
.code 


; extern "C" double CalcSum (float a, double b, float c, double d, float e,~ 
double f); 


; 描述 : 下 面 的 函数 演示 了 如 何在 x86-64 函数 中 传递 浮 点 参数 


2 
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CalcSum proc 


; Sum the argument values 


cvtss2sd xmmo,xmmo ;将 a 提升 为 DPFP 
addsd xmm0,xmm1 ;xmm0 = a + b 
cvtss2sd xmm2,xmm2 . ;将 c 提升 为 DPFP 
addsd xmmo ,xmm2 ;xmmo = a +b+< 
addsd xmmo,xmm3 ;xmmoO =a+b+c+d 


cvtss2sd xmm4,real4 ptr [rsp+40] 346 e 提升 为 DPFP 


addsd xmmo,xmm4 ;xmm0 =a+b+c+d+e 
addsd xmm0,real8 ptr [rsp+48] ;xmm0 = a+b+c+d+e+f 
ret 


CalcSum endp 


; extern "C" double CalcDist (int x1, double x2, long long y1, double y2,~ 
float z1, short z2); 


; 描述 : 下 面 的 函数 演示 了 如 何在 x86-64 函数 中 混合 传递 浮 点 参数 和 整 型 参数 


CalcDist proc 


计算 xd = (x2 - x1) * (x2 - x1) 


9 


cvtsi2sd xmm4,ecx ;将 x1 转换 为 DPFP 
subsd xmm1,xmm4 ;xmm1 = x2 - x1 
mulsd xmm1,Xmm1 ;xmm1 = xd 


计算 yd = (y2 - y1) * (y2 - y1) 


we 


cvtsi2sd xmm5,r8 ;将 y1 转换 为 DPFP 
subsd xmm3,xmm5 ;xmm3 = y2 - y1 
mulsd xmm3,xmm3 ;xmm3 = yd 


3 计算 zd = (z2 - z1) * (z2 - z1) 


movss xmmO,real4 ptr [rsp+40] ;xmm=0 = z1 
cvtss2sd xmmo,xmmo ;将 21 转换 为 DPFP 
movsx eax,word ptr [rsp+48] ;eax = 符号 扩展 z2 
cvtsi2sd xmm4,eax ;将 z2 转换 为 DPFP 
subsd xmm4,xmmO ;xmm4 = z2 - z1 
mulsd xmm4,xmm4 ;xmm4 = zd 


; 计算 final distance sqrt(xd + yd + zd) 


addsd xmm1i,xmm3 ;xmmi = xd + yd 
addsd xmm4, xmm1 ;xmm4 = xd + yd + zd 
sqrtsd xmmo,xmm4 ;xmmo = sqrt(xd + yd + zd) 
ret 

CalcDist_ endp 
end 


C++ 源 文件 FloatingPointArithmetic.cpp〈 见 清单 18-7 ) 中 包含 的 两 个 函数 准备 了 若干 
测试 项 ， 用 来 测试 汇编 语言 晴 数 CaclSum 和 CalcDist 。 请 注意 ，CalcSum 只 有 浮 点 参数 ， 
而 CaleDist 则 既 有 浮 点 参数 ， 又 有 整 型 参数 。 这 两 个 测试 函数 的 目的 是 向 大 家 演示 Visual 
C++ 调用 约定 是 如 何 处 理 不 同类 型 的 数字 参数 的 。 

根据 Visual C++ 调用 约定 ， 前 四 个 浮 点 参数 通过 寄存 器 XMMO ~ XMM3 传递 ， 其 
他 的 浮 点 参数 通过 栈 传递 。 如 果 一 个 函数 既 有 浮 点 参数 又 有 整 型 参数 ， 则 前 四 个 参数 ( 整 
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数 或 浮 点 数 ) 通过 通用 寄存 器 或 XMM 寄存 器 传递 ， 其 他 参数 通过 栈 传 递 。 此 调用 约定 将 
XMMO ~ XMM5 视 为 易 变 的 ， 将 XMM6 ~ XMMIS 视 为 非 易 变 的 。 如 果 也 数 的 返回 值 是 
浮 点 数 ， 必 须 通 过 寄存 器 XMMO 返回 。 
清单 18-8 中 包含 了 函数 CalcSum_ AY x86-64 汇编 实现 源 代码 ， 它 将 6 个 浮 点 参数 进行 
相 加 ， 并 返回 总 和 。 图 18-4 展示 了 函数 CalcSum_ 被 调用 时 的 栈 布局 和 寄存 器 内 容 。 寄 存 器 
521] XMMO ~ XMM3 分 别 用 来 传递 参数 a、b、c 和 d (XMM 寄存 器 的 64 ~ 127 位 内 容 是 未 定 
义 的 ， 故 未 在 图 中 显示 )。 参 数 e 和 f 通 过 栈 传递 。 请 注意 ， 因 为 函数 CaleSum kA MME 
数 ， 所 以 通用 寄存 器 RCX、RDX、R8 和 R9 的 内 容 是 未 定义 的 。CalcSum_ 的 代码 逻辑 非常 
直 白 ， 若 干 个 addsd 指令 把 参数 相 加 。cvtss2sd 指令 用 来 将 单 精度 浮 点 数 a、c 和 e 提升 为 双 
精度 浮 点 数 。 最 后 ，XMMO0 寄存 器 包含 了 6 个 参数 的 和 ， 函 数 可 直接 返回 。 


高 内 存 








寄存 器 


辆 = 未 定义 
图 18-4 进入 CaleSum 函数 时 的 栈 布局 和 寄存 器 值 


对 于 一 个 既 有 浮 点 参数 又 有 整 型 参数 的 函数 ， 调 用 者 必须 根据 前 四 个 参数 的 类 型 混合 使 
用 通用 寄存 器 或 XMM 寄存 器 。 如 果 被 调 函 数 的 第 一 个 参数 类 型 是 整 型 (或 者 指针 类 型 )， 
则 它 通过 通用 寄存 器 RCX 传递 。 如 果 被 调用 函数 的 第 一 个 参数 是 浮 点 型 ， 则 需要 使 用 寄存 
器 XMMO 传递 。 类 似 地 ， 根 据 参 数 类 型 ( 整 型 或 浮 点 型 )， 第 二 个 参数 通过 寄存 器 RDX 或 
XMM! 传递 ， 第 三 个 参数 通过 寄存 器 RS 或 XMM2 传递 ， 第 四 个 参数 通过 寄存 器 R9 或 
XMM3 传递 。 其 他 参数 都 通过 栈 传递 。 
函数 CalcDist 计算 三 维 空间 中 两 
个 点 的 距离 ， 它 的 前 四 个 参数 是 整 型 数 
和 浮 点 数 混合 在 一 起 的 ， 所 以 在 调用 时 ， AA 
根据 参数 的 具体 类 型 ， 通 过 通用 寄存 器 
或 者 XMM 寄存 器 传递 。 其 他 参数 则 通 
过 栈 传 递 ， 如 图 18-5 所 示 。CalcDist 
函数 执行 的 运算 十 分 简单 。 注 意 ， 函 数 
用 到 了 指令 cvtsi2sd 和 cvtss2sd， 目 的 
是 把 整数 和 单 精度 浮 点 数 转换 为 双 精 
度 浮 点 数 。 输 出 18-4 列 出 了 示例 程序 
[522] FloatingPointArithmetic 的 执行 结果 。 图 18-5 进入 CalcDist 函数 时 的 栈 布局 和 寄存 器 值 
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输出 18-4 示例 程序 FloatingPointArithmetic 
Results for CalcSum() 
a: 10.0000 b: 20.0000 c: 0.5000 
d: 0.0625 e: 15.0000 f: 0.1250 
sum: 45.6875 


Results for CalcDist() 


x1: 5 X2: 12.8750 
yi: 17 y2: 23.1875 
z1: -2.0625 22: -6 


dist: 10.761259 


18.2 x86-64 调用 约定 


本 节 学 习 x86-64 非 叶 函数 编程 。Visual C++ 调用 约定 对 非 叶 函 数 的 序言 和 结语 s 提 出 
了 很 严格 的 编程 要 求 。 调 用 约定 还 新 增 了 一 些 指示 符 供 汇 编 器 生成 静态 数据 ，Visual C++ 
运行 时 环境 利用 这 些 数据 来 处 理 异 常 。 使 用 非 叶 函数 的 好 处 很 多 ， 包 括 可 以 使 用 全 部 通用 
寄存 器 和 XMM 寄存 器 ， 可 使 用 栈 帧 指针 ， 可 通过 栈 创建 局 部 变量 ， 以 及 调用 其 他 函数 。 

本 节 的 前 三 个 示例 程序 演示 了 如 何 通 过 显 式 的 指令 和 指示 符 来 编写 x86-64 非 叶 函数 ， 
同时 呈现 了 组 织 非 叶 函 数 时 的 一 些 关 键 编程 信息 。 在 第 四 个 例子 中 ， 对 序言 和 结语 的 宏 做 了 
说 明 ， 在 编写 非 叶 函 数 时 ， 这 些 宏 能 自动 完成 大 部 分 编码 工作 。 


18.2.1 基本 栈 帧 


本 节 的 第 一 个 例子 是 CallingConvention1， 演 示 了 如 何在 汇编 语言 函数 中 初始 化 栈 帧 
指针 ， 并 通过 它 来 引用 栈 上 的 参数 和 局 部 变量 。 同 时 演示 了 编写 x86-64 汇编 语言 函数 序言 
和 结语 时 必须 注意 的 一 些 编程 约定 。 清 单 18-9 和 清单 18-10 分 别 列 出 了 示例 程序 Calling 
Conventionl 的 C++ 和 汇编 实现 代码 。 


清单 18-9 CallingConvention1.cpp 


#include "stdafx.h" 
#include "MiscDefs.h" 


extern "C" Int64 Cc1 (Int8 a, Int16 b, Int32 c, Int64 d, Int8 e, Int16 f,~ 
Int32 g, Int64 h); 


int tmain(int argc, _TCHAR* argv[]) 
{ 

Int8 a = 10, e = -20; 

Int16 b = -200, f = 400; 

Int32 c - 300, g - -600; 

Int64 d - 4000, h - -8000; 


Int64 x = Cet (a, b, c, dj e, fg, h); 
printf("\nResults for CallingConventioni n"); 


printf(" a, b, c, d: %8d %8d %8d X81ldWn", a, b, c, d); 
printf(" e, f, g, h: %8d %8d %8d X811dWn", e, f, g, h); 


O 在 函数 被 调用 时 ， 需 要 有 一 段 程序 来 保存 当前 的 堆栈 信息 ， 以 及 一 些 寄存 器 。 当 函数 调用 结束 后 ， 就 要 
恢复 现场 。 保 存 现场 的 代码 为 序言 ， 而 恢复 现场 的 代码 则 为 结语 。 译 者 注 
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printf(" x: 4811dWn", x); 


return 0; 
524 ) 
清单 18-10 CallingConvention1 .asm 
.code 
; extern "C" Int64 Cc1 (Int8 a, Int16 b, Int32 c, Int64 d, Int8 e, Int16 f,= 
Int32 g, Int64 h); 
; 描述 : 下 面 的 函数 演示 了 如 何 创 建 和 使 用 基本 的 x86-64 栈 帧 指针 
Cc1_ proc frame 
; 函数 序言 
push rbp ;保存 调用 者 的 rbp 寄存 器 
.pushreg rbp 
sub rsp,16 ;分 配 局 部 栈 空 间 
.allocstack 16 
mov rbp,rsp ;设置 帧 指针 
.setframe rbp,O 
RBP RA - 24 ;从 rbp 到 ret 地 址 的 偏 移 
.endprolog ;序言 结束 标记 
; 把 变量 寄存 器 中 的 值 保存 到 备份 空间 (可 选 ) 
mov [rbp+RBP_ RA«8],rcx 
mov [rbp*RBP RA«16],rdx 
mov [rbp«RBP RA«24],r8 
mov [rbp+RBP_RA+32],19 
; 对 变量 a、b、c 和 d RA 
movsx rcx,cl ;rcx =a 
movsx rdx,dx ;rdx = b 
movsxd r8,r8d SEs s.c; 
add rcx,rdx ;ICX = a+b 
add r8,r9 ;I8 =c+d 
add r8,rcx ;Jr8=a+b+c+d 
mov [rbp],r8 ;save a+ b+c+d 
; 对 变量 e、f、g 和 h 求 和 
movsx rcx,byte ptr [rbp+RBP RA+40] ;rcx =e 
movsx rdx,word ptr [rbp+RBP RA+48] ;rdx = f 
movsxd r8,dword ptr [rbp+RBP RA+56] ;r8 = g 
add rcx,rdx ;rcx = ee f 
add r8,qword ptr [rbp+RBP_RA+64] ;Ir8 =g+h 
525 add r8,rcx ;r8 =e+f+g+h 
; 计算 总 和 
mov rax, [rbp] ;rax =a+b+c+d 
add rax,r8 ;rax = 总 和 
; 函数 结语 
add rsp,16 ;释放 局 部 栈 空间 
pop rbp ;恢复 调用 者 的 rbp 寄存 器 
ret 
Cet. endp 


end 
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C++ 源 文件 CallingConventionl.cpp (JL yF% 18-9) 中 实现 的 功能 主要 是 为 了 给 函数 
Ccl 提供 一 个 测试 用 例 ，Ccl_ 计算 8 个 整 型 参数 的 和 ， 并 将 其 返回 。 计 算 的 结果 以 一 系列 
printf 输出 到 屏幕 上 。 

函数 Ccl 在 汇编 源 文件 CallingConventionl .asm ( 见 清单 18-10 ) 中 ，.code 指示 符 之 
后 即 是 声明 Ccl proc frame。 声 明 proc 标识 了 函数 序言 的 开始 。 而 属性 frame 用 来 告知 汇 
编 器 Col 函数 使 用 栈 帧 指针 ， 并 告诉 汇编 器 产生 静态 表单 ， 供 Visual C++ 运行 时 环境 用 来 
处 理 异常 。push rbp 指令 把 调用 者 的 RBP 寄存 器 值 保存 到 栈 上 ， 因 为 Ccl_ 将 用 此 寄存 器 作 
为 自己 的 栈 帧 指针 。 接 着 是 一 个 声明 .pushreg rbp， 它 是 一 个 汇编 编译 器 指示 符 ， 要 求 汇编 
编译 器 在 异常 处 理 表 中 保存 指令 push rbp 的 偏 移 信息 。 请 务必 注意 ， 汇 编 编译 器 指示 符 并 非 
可 执行 的 指令 ， 它 是 用 来 告诉 汇编 编译 器 在 源码 汇编 过 程 中 应 该 完成 某 个 特定 的 动作 。 

指令 sub rsp, 16 在 栈 上 为 局 部 变量 申请 16 字 节 的 空间 ，Ccel_ PAU FAY 8 个 
字 节 ， 但 x86-64 调用 约定 要 求 非 叶 函 数 的 栈 指针 在 函数 序言 以 外 ， 必 须 保持 16 字 节 对 齐 。 
我 们 在 本 节 的 后 面 会 学 习 更 多 关于 栈 指针 对 齐 的 要 求 。 下 面 的 声明 .allocstack 16 是 一 个 汇 
编 编 译 器 指示 符 ， 要 求 汇编 编译 器 把 局 部 栈 的 长 度 保存 在 运行 时 异常 处 理 表 中 。 

指令 mov rbp, rsp 把 寄存 器 RBP 初始 化 为 栈 帧 指针 ， 指 示 符 .setframe rbp 0 把 这 个 操作 
告知 汇编 编译 器 ， 偏 移 值 0 表示 寄存 器 RSP 和 RBP 之 间 的 差 。 函 数 Ccl 中， 寄存器 RSP 
Al RBP 值 相同 ， 所 以 二 者 之 差 为 0。 在 本 节 的 后 面 ， 我 们 会 学 习 更 多 关于 .setframe 指示 符 
的 知识 。 需 要 注意 的 是 ，x86-64 汇编 语言 函数 可 以 使 用 任何 非 易 变 寄 存 器 作为 栈 帧 指针 。 但 
使 用 RBP 作为 栈 帧 指针 ， 能 保持 x86-32 fil x86-64 函数 之 间 的 一 致 性 。 最 后 的 汇编 编译 器 
指示 符 .endprolog 指示 了 Ccl 函数 序言 的 结束 。 图 18-6 展示 了 序言 结束 时 的 栈 布 局 和 参数 
寄存 器 的 内 容 。 
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A = 未 定义 
图 18-6 Cecl_ 琐 数 序言 结束 时 的 栈 布 局 和 参数 寄存 器 内 容 


BE 


后 面 的 一 段 指 令 把 寄存 器 RCX、RDX、R8 和 R9 保存 到 栈 上 各 自 的 备份 空间 中 ， 此 操 
作 是 可 选 的 ，Ccl_ 实现 此 操作 的 主要 目的 是 为 了 给 读者 做 演示 。 请 注意 ， 这 段 代 码 的 mov 
指令 中 含有 符号 RBP_RA， 它 的 值 为 24， 表示 为 了 能 正确 地 引用 备份 空间 的 地 址 而 需要 和 额 
外 增加 的 偏 移 值 ( 相 比 于 叶 函 数 )。Visual C++ 64 位 调用 约定 允许 的 另 一 个 可 选 操作 是 在 执 
行 push rbp 指令 前 ， 利 用 RSP 作为 基 址 寄存 器 ， 把 参数 寄存 器 的 值 保 存 到 备份 空间 〈 例 如 : 
mov [rsp+8], rex 或 mov [rcx+16], rdx 等 )。 也 请 务必 留心 的 是 ， 函 数 可 利用 备份 空间 存储 其 
他 的 临时 值 。 当 备份 空间 被 用 作 此 目的 时 ， 必 须 是 指示 符 .endprolog 之 后 的 汇编 代码 才 可 以 

接 下 来 是 参数 寄存 器 间 的 加 法 操作 ， 函 数 Ccl_ 要 对 变量 a、b、c Ald 做 求 和 运算 。 然 
后 把 求 得 的 总 和 保存 到 局 部 变量 LocalVarl 中 ， 执 行 指令 mov [rbp], r8。 注 意 ， 在 求 和 过 程 
H, KAET movsx 和 movsxd 指令 将 参数 a、b、c fll d 进行 符号 扩展 。 用 类 似 的 逻辑 对 e 
f、g 和 了 h 进行 求 和 运算 ,只 是 这 几 个 参数 都 是 通过 栈 传递 的 ， 并 通过 栈 帧 寄存 器 RBP 加 一 
个 常量 偏 移 来 引用 。 符 号 RBP_RA 在 此 再 次 被 用 到 ， 作 为 引用 参数 时 的 额外 偏 移 值 。 最 后 ， 
两 次 求 和 运算 得 到 的 总 和 相 加 ， 得 到 最 终结 果 并 保存 在 寄存 器 RAX 中 。 

在 x86-64 函数 的 结语 部 分 ， 必 须 释 放 所 有 在 序言 部 分 申请 的 栈 空间 ， 从 栈 上 恢复 所 有 
的 非 易 变 寄存 器 的 值 ， 并 执行 函数 返回 。 指 令 add rsp, 16 释放 在 函数 序言 部 分 申请 的 16 F 
节 的 栈 空间 。 随 后 的 指令 pop rbp 恢复 RBP 寄存 器 的 值 。 最 后 还 必须 有 一 个 ret 指令 。 输 
出 18-5 列 出 了 示例 程序 CallingConventionl 的 执行 结果 。 


输出 18-5 ”示例 程序 CallingConvention1 


Results for CallingConvention1 

4, b, €, d: 10 -200 300 4000 
e, f, g, h: -20 400 -600 -8000 
X: -4110 


18.2.2 ”使 用 非 易 变 寄存 器 


下 一 个 示例 程序 名 为 CallingConvention2， 演 示 了 如 何在 x86-64 函数 中 使 用 非 易 变 寄 存 
器 。 它 同时 也 提供 了 一 些 关 于 栈 帧 和 局 部 变量 的 编程 细节 。 示 例 程序 CallingConvention2 的 
C++ 和 汇编 语言 源 代 码 实现 分 别 包含 在 清单 18-11 和 清单 18-12 中 。 


清单 18-11 CallingConvention2.cpp 


#include "stdafx.h" 
#include "MiscDefs.h" 


extern "C" bool Cc2 (const Int64* a, const Int64* b, Int32 n, Int64 * sum a,~ 
Int64* sum b, Int64* prod a, Int64* prod b); 


int tmain(int argc, TCHAR* argv[]) 


const  int32 n = 6; 

Int64 a[n] = { 2, -2, -6, 7, 12, 5 }; 
Int64 b[n] = (3, 5, -7, 8, 4, 9); 
Int64 sum_a, sum_b; 

Int64 prod a, prod b; 


printf("\nResults for CallingConvention2\n"); 
bool rc = Cc2 (a, b, n, &sum_a, &sum b, &prod a, &prod b); 
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. 
, 


if (!rc) 
printf("Invalid return code from Cc2 () n"); 
else 
{ 
im de Lane 
or (int i i < n; i++) 528 


printf("X711d X711dWn", a[i], b[i]); 
printf("\n"); 
printf("sum a: %711d sum b: %71ld\n", sum a, sum b); 
printf("prod a: %711d prod b: %71ld\n", prod a, prod b); 
} 


return 0; 


清单 18-12 CallingConvention2_.asm 


.Code 


extern "C" void Cc2 (const Int64* a, const Int64* b, Int32 n, Int64*e 


sum a, Int64* sum b, Int64* prod a, Int64* prod b); 


, 
. 
> 
3 


3 


描述 : 下 面 的 函数 演示 了 如 何 初始 化 并 使 用 栈 帧 指针 ， 也 示范 了 非 易 变通 用 寄存 器 的 用 法 


; 命名 常量 表达 式 


NUM PUSHREG = 函数 序言 压 栈 的 非 易 变 寄存 器 的 数量 
STK_LOCAL1 = STK_LOCAL1 区 域 的 长 度 


3 

3 

; STK_LOCAL2 = STK LOCAL2 区 域 的 长 度 

; STK PAD = 为 保持 RSP 寄存 器 16 字 节 对 齐 所 需 额外 字 节 (0 36 8) 
; STK TOTAL = 局 部 栈 的 总 长 度 

; RBP RA = RBP 和 返回 地 址 之 间 的 长 度 

NUM_PUSHREG = 4 

STK_LOCAL1 = 32 

STK_LOCAL2 = 16 

STK PAD = ((NUM PUSHREG AND 1) XOR 1) * 8 

STK TOTAL = STK_LOCAL1 + STK LOCAL2 + STK PAD 

RBP RA = NUM PUSHREG * 8 + STK_LOCAL1 + STK PAD 
Cea proc frame 


; 把 非 易 变 寄存 器 的 值 保存 在 栈 上 


push rbp 

.pushreg rbp 

push rbx 

.pushreg rbx 

push r12 

.pushreg r12 

push r13 529 
.pushreg r13 


; 申请 局 部 栈 空间 ， 并 设置 栈 指针 


3 


sub rsp,STK_TOTAL ;分 配 局 部 栈 空 间 
.allocstack STK TOTAL 

lea rbp,[rsp«STK LOCAL2] ;设置 帧 指针 
.setframe rbp,STK LOCAL2 

.endprolog ;序言 结束 标记 


初始 化 栈 上 的 局 部 变量 ( 仅 是 为 了 演示 ) 
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pxor xmm5,xmm5 

movdqa [rbp-16],xmm5 

mov qword ptr [rbp],0aah 
mov qword ptr [rbp«8],obbh 
mov qword ptr [rbp+16],0cch 
mov qword ptr [rbp+24],Oddh 


; 把 参数 值 保存 到 备份 区 域 (可 选 ) 
mov qword ptr [rbp+RBP_RA+8], rcx 
mov qword ptr [rbp«RBP RA«16],rdx 
mov qword ptr [rbp+RBP_RA+24],r8 
mov qword ptr [rbp+RBP_RA+32],19 


;将 xmm5 保存 到 LocalVar2A/2B 
;将 Oxaa 保存 到 LocalVar1A 
;将 Oxbb 保存 到 LocalVariB 
;将 Oxcc 保存 到 LocalVar1C 
;将 0xdd 保存 到 LocalVar1D 


; 为 处 理 循环 进行 必要 的 初始 化 


test r8d,r8d 
jle Error 


xor rbx,rbx 


jn <= 0? 


;车 n <= 0， 则 跳 转 


;rbx = 当前 元 素 偏 移 


xor r10,r10 3x10 = sum a 
xor r11,r11 311 = sum b 
mov r12,1 ;112 = prod a 
mov r13,1 ;113 - prod b 
; 计算 数组 的 和 与 乘积 
QQ: mov rax, [rcx+rbx] ;rax = a[i] 
add r10,rax ;更 新 sum a 
imul r12,rax ;更 新 prod a 
mov rax, [rdxerbx] ;rax = b[i] 
add ri1,rax ;更 新 sum b 
imul r13,rax ;更 新 prod b 
add rbx,8 ;调整 ebx 指向 下 一 个 成 员 
dec r8d s% 
jnz @B ;循环 到 结束 
; 保存 总 和 
mov [r9],r10 ;保存 sum a 
530 mov rax,[rbp+RBP_RA+40] ;rax = 指向 sum b 
mov [rax],r11 ;保存 sum_b 
mov rax, [rbp+RBP_RA+48] ;rax = 指向 prod a 
mov [rax],r12 ;保存 prod a 
mov rax,[rbp+RBP_RA+56] ;rax = 指向 prod b 
mov [rax],r13 ;保存 prod b 
mov eax,1 ;set return code to true 
; 函数 结语 
Done: lea rsp,[rbp+STK_LOCAL1+STK_PAD] ;恢复 rsp 
pop r13 ;恢复 NV 寄存 器 
pop r12 
pop rbx 
pop rbp 
ret 
Error: xor eax,eax ;把 返回 值 设 为 假 
jmp Done 
Cc2_ endp 
end 





源 文件 CallingConvention2.cpp (iL #7 18-11) 中 C++ 代码 的 主要 目的 是 为 汇编 语言 
函数 Cc2_ 准备 一 些 简 单 的 测试 项 。 在 这 个 简单 的 示例 程序 里 ，Cc2_ 继续 做 求 和 操作 ， 并 产 
生 两 个 带 符号 的 64 位 整 型 数组 。 最 后 ， 把 执行 结果 通过 printf 函数 显示 在 屏幕 上 。 


在 汇编 源 文件 CallingConvention2 .asm ( 见 清单 18-12) 的 开始 有 若干 命名 常量 ， 它 们 
用 来 控制 Cc2_ 应 在 函数 序言 部 分 申请 多 大 栈 空间 。 和 前 一 个 例子 一 样 ， 本 示例 也 在 proc 声 
明 中 使 用 了 frame 属性 ， 以 告知 汇编 编译 器 本 函数 将 会 使 用 栈 帧 指针 。 随 后 的 若干 个 push 
指令 将 多 个 非 易 变 寄存 器 (RBP、RBX、R12 和 R13 ) 的 值 保存 到 栈 上 。 注 意 到 每 个 push fi 
邻 后 面 都 跟着 一 个 .pushreg 指示 符 ， 这 是 指示 汇编 编译 器 把 每 次 push 操作 都 添加 到 Visual 
C++ 运行 时 环境 的 异常 处 理 表 中 。 

指令 sub rsp, STK TOTAL 为 局 部 变量 预 留 栈 空间 ， 其 后 是 一 条 指示 符 .allocstack STK_ 
TOTAL。 接 下 来 RBP 被 初始 化 为 栈 帧 指针 ， 通 过 指令 lea rbp, [rsp+STK_LOCAL2], RBP 
的 值 等 于 rsp+STK_LOCAL2。 图 18-7 演示 了 RBP 初始 化 之 后 的 栈 布局 和 变量 寄存 器 的 内 
容 。 通 过 设置 RBP， 局 部 栈 被 划分 成 两 个 部 分 ， 从 而 使 汇编 编译 器 能 够 产生 更 有 效 的 机 器 
码 ， 这 是 因为 局 部 栈 可 以 通过 8 位 偏 移 而 非 32 位 偏 移 来 引用 。 这 种 做 法 也 令 非 易 变 类 型 
XMM 寄存 器 的 保存 和 恢复 变 得 简单 ， 本 节 的 后 面 会 具体 讨论 此 方面 内 容 。 在 lea 指令 的 后 
面 是 一 条 .setframe rbp, STK LOCAL2 指示 符 指示 汇编 编译 器 正确 地 配置 异常 处 理 表 。 这 里 
要 注意 一 点 ，.setframe 指示 符 中 包含 的 长 度 值 必须 是 一 个 小 于 等 于 240 AW 16 的 奇数 倍 的 
数值 。 后 面 的 指示 符 .endprolog 标识 了 Cc2_ 函数 的 序言 已 结束 。 
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图 18-7 指令 lea rbp, [rsp+STK LOCAL2] 执行 后 的 栈 布局 和 变量 寄存 器 内 容 


接 下 来 的 代码 块 在 栈 上 初始 化 局 部 变量 ， 这 仅 是 出 于 示例 的 目的 。 请 注意 ， 代 码 块 中 有 
一 个 指令 是 movdqa [rpb-16], xmm5， 它 要 求 目 标 操 作 数 的 地 址 必须 是 16 字 节 对 齐 的 。 这 也 
是 调用 约定 要 求 RSP 寄存 器 必须 符合 16 字 节 对 齐 的 男 一 个 原因 。 局 部 变量 初始 化 之 后 ， 参 
数 寄 存 器 的 值 被 保存 到 备份 空间 中 。 当 然 ， 这 也 纯粹 是 为 了 示例 目的 才 这 样 做 。 
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函数 Cc2_ 的 主 循环 的 逻辑 比较 简单 ， 在 验证 了 参数 n 的 值 之 后 ， 把 两 个 中 间 值 sum a 
(R10) fil sum b (R11) 初始 化 为 0， 并 把 另 两 个 中 间 值 prod a (R12) 和 prod b (R13) 初 
始 化 为 1。 然 后 计算 输入 数组 a 和 b 的 和 ， 结 果 被 保存 在 主 调 函 数 指定 的 内 存 中 。 注 意 ， 指 
向 sum b, prod a 和 prod b 的 指针 都 在 栈 上 。 

此 函数 的 结语 部 分 ， 第 一 个 指令 是 lea rsp, [rbp+STK LOCAL1I+STK PAD], Hif 
RSP 寄存 器 的 值 。Visual C++ 调用 约定 规定 ， 必 须 通 过 指令 lea rsp, [rfp+X] 8X add rsp, X XÆ 
恢复 RSP 寄存 器 的 值 ， 其 中 的 rfp 代表 栈 帧 指针 ，X 代表 一 个 常量 值 。 通 过 这 样 的 限定 ， 可 
大 大 地 简化 异常 处 理 表 的 复杂 度 ， 只 需要 区 分 有 限 的 几 种 指令 模式 。 后 面 的 pop 指令 用 来 恢 
复 非 易 变 类 型 通用 寄存 器 的 值 。 根 据 Visual C++ 调用 约定 ， 函 数 结语 不 能 含有 任何 处 理 逻 
辑 ， 返 回 值 的 赋值 也 不 能 放 在 结语 中 。 输 出 18-6 列 出 了 示例 程序 CallingConvention2 的 执 
行 结果 。 


输出 18-6 示例 程序 CallingConvention2 


Results for CallingConvention2 


2 3 
E) 5 
-6 -7 
7 8 
12 4 
5 9 
sum_a: 18 sum b: 22 


prod a: 10080 prod b: -30240 


18.2.3 ”使 用 非 易 变 类 型 XMM 寄存 器 


在 本 章 开 头 ， 我 们 已 经 学 习 了 如 何 借助 XMM 寄存 器 来 实现 标量 浮 点 数 的 运算 。 本 节 
中 ， 我 们 将 继续 用 示例 程序 CallingConvention3 演示 在 使 用 非 易 变 类 型 XMM AAR, PR 
数 序言 和 结语 所 必须 注意 的 若干 事项 。 清 单 18-13 和 清单 18-14 分 别 是 CallingConvention3 
的 C++ 和 汇编 语言 源 代码 。 


清单 18-13 CallingConvention3.cpp 


#include "stdafx.h" 
#tdefine USE MATH DEFINES 
#include «math.h» 


extern "C" void Cc3 (const double* r, const double* h, int n, double*~ 
sa cone, double* vol cone); 


int tmain(int argc, _TCHAR* argv[]) 


const int n = 6; 

double r[n] (1, 1, 2, 2, 3, 3 }; 
double h[n] = { 1, 2, 3, 4, 5, 10 }; 
double sa conei[n], sa cone2[n]; 
double vol conei[n], vol cone2[n]; 


// 计算 圆锥 体 的 表面 积 和 体积 
for (int i = 0; i« n; i++) 
{ 


sa cone1[i] = M PI * r[i] * (r[i] + sqrt(r[i] * r[i] + h[i] * h[i])); 
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vol conei[i] = M PI * r[i] * r[i] * h[i] / 3.0; 
) 


Cc3 (r, h, n, sa cone2, vol cone2); 


printf("\nResults for CallingConvention3 n"); 
for (int i = 0; i < n; ie) 





{ 
printf(" r/h: %14.21f %14.21f\n", r[i], h[i]); 
printf(" sa: %14.61f %14.61f\n", sa conei[i], sa cone2[i]); 
printf(" vol: %14.61f %14.61f\n", vol conei[i], vol cone2[i]); 
printf("\n"); 
} 
return 0; 
} 
清单 18-14 CallingConvention4_.asm 
.const 
r8 3po real8 3.0 
r8 pi real8 3.14159265358979323846 
.code 


; extern "C" bool Cc3 (const double* r, const double* h, int n, double*e 
sa cone, double* vol cone); 


3 


; 描述 : 下 面 的 函数 演示 了 如 何 初始 化 并 使 用 栈 帧 指针 ， 同 时 举例 说 明了 非 易 变 类 型 通用 寄存 器 和 XMM 寄存 器 的 用 法 
定义 常量 的 命名 表达 式 


函数 序言 中 非 易 变 寄存 器 压 栈 个 数 
STK LOCAL1 区 域 的 字 节 数 (参见 正文 插图 ) 


j 

J 

; NUM PUSHREG 
3 STK LOCAL1 
3 

L 

3 
3 


; STK_LOCAL2 = STK_LOCAL2 区 域 的 字 节 数 (参见 正文 插图 ) 
; STK_PAD = 16 字 节 对 齐 RSP 所 需 额外 字 节 数 
STK_TOTAL = 栈 上 局 部 变量 的 总 字 节 数 
RBP_RA = RBP 与 栈 上 返回 地 址 间 的 字 节 数 
NUM PUSHREG 2g 
STK LOCAL1 - 16 
STK LOCAL2 - 64 
STK PAD - ((NUM PUSHREG AND 1) XOR 1) * 8 
STK TOTAL = STK_LOCAL1 + STK LOCAL2 + STK PAD 
RBP RA = NUM PUSHREG * 8 + STK LOCAL1 + STK PAD 
Cc3 proc frame 


; 保存 栈 上 的 非 易 变 寄 存 器 
push rbp 
.pushreg rbp 
push rbx 
.pushreg rbx 
push rsi 
.pushreg rsi 
push r12 
.pushreg r12 
push r13 
.pushreg r13 
push r14 
.pushreg r14 
push r15 
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.pushreg r15 


; 分 配 局 部 栈 空间 并 初始 化 帧 指针 
sub rsp,STK_TOTAL 
.allocstack STK_TOTAL 
lea rbp, [rsp+STK_LOCAL2] 
.setframe rbp,STK LOCAL2 


;分 配 局 部 栈 空间 
srbp= 栈 帧 指针 


; 保存 非 易 变 寄存 器 XMM12 ~ XMM15。 注 意 STK_LOCAL2 必须 不 小 于 等 于 被 保存 
; XMM 寄存 器 个 数 的 16 fii 
movdqa xmmword ptr [rbp-STK LOCAL2448],xmm12 
.Savexmm128 xmm12,48 
movdqa xmmword ptr [rbp-STK LOCAL2432],xmm13 
.Savexmm128 xmm13,32 
movdqa xmmword ptr [rbp-STK LOCAL2416],xmm14 
.Savexmm128 xmm14,16 
movdqa xmmword ptr [rbp-STK LOCAL2],xmm15 
.Savexmm128 xmm15,0 
.endprolog 


; 访问 栈 上 的 局 部 变量 (演示 之 用 ) 
mov qword ptr [rbp],-1 
mov qword ptr [rbp+8],-2 


; 初始 化 循环 变量 。 注 意 ， 下 面 很 多 寄存 器 被 初始 化 ， 仅 是 为 了 演示 非 易 变 类 型 

; 寄存 器 GP 和 XMM 的 使 用 
movsxd rsi,r8d 
test rsi,rsi 
jle Error 


;LocalVar1A 
;LocalVariB 


= 
-2 


srsl en 
sn «s 0? 
;jump if n <= 0 


;rbx = 数组 元 素 偏 移 
;r12 = 指向 r 
3713 = 指向 h 
3714 = 指向 sa cone 


xor rbx,rbx 
mov ri2,rcx 
mov r13,rdx 
mov r14,r9 


mov r15,[rbp+RBP_RA+40] 


;r15 = 指向 vol cone 


movsd xmmi4,[r8 pi] ;xmmi4 = pi 
movsd xmm15,[r8 3po] ;xmm15 = 3.0 
; 计算 圆锥 体 表 面积 和 体积 
了 
a woLepi*r*rz*hZs 
@@: movsd xmmO,real8 ptr [r12+rbx] ;xmmo = r 
movsd xmmi,real8 ptr [ri34rbx] ;xmmi = h 
movsd xmm12,xmmO ;xmm12 - r 
movsd xmm13,xmm1 ;xmm13 - h 


mulsd xmmo,xmmo 
mulsd xmmi,xmm1i 
addsd xmmo,xmm1 


;mmo-r*r 
;xmmi = h*h 
;mmo-r*r«h*h 


Sqrtsd xmmo,xmmo 
addsd xmmo,xmm12 
mulsd xmmo, xmm12 
mulsd xmmO,xmm14 


;xmmo = sqrt(r * r + h * h) 

;xmm0 = r + sqrt(r * r + h * h) 

;xmmo = r * (r  sqrt(r * r + h * h)) 
;xmmo = pi * r * (r + sqrt(r * r +h * h)) 


mulsd xmm12,xmm12 
mulsd xmm13,xmmi4 
mulsd xmm13,xmm12 
divsd xmm13,xmm15 


;xmn12-2r*r 

;xmm13 = h * pi 

j3xmm13 = pi'* r * xr * h 
ixmm13 = pi*r*r*h/3 


;保存 面积 


movsd real8 ptr [ri44rbx],xmmo 
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movsd real8 ptr [r15+rbx],xmm13 ;保存 面积 


add rbx,8 ;设置 rbx 指向 下 一 个 元 素 
dec rsi ;更 新 计数 器 

jnz @B ;重复 ， 直 到 完 

mov eax,1 ;设置 成 功 返 回 码 


; 恢复 非 易 变 类 型 XMM 寄存 器 

Done:  movdqa xmm12,xmmword ptr [rbp-STK_LOCAL2+48] 
movdqa xmm13,xmmword ptr [rbp-STK_LOCAL2+32] 
movdqa xmm14,xmmword ptr [rbp-STK LOCAL2416] 
movdqa xmm15,xmmword ptr [rbp-STK LOCAL2] 


; 函数 结语 
lea rsp, [rbp+STK LOCAL1+STK PAD] ;恢复 rs 
pop r15 ;恢复 非 昂 变通 用 寄存 器 
pop r14 
pop r13 
pop r12 
pop rsi 
pop rbx 
pop rbp 
ret 


Error: xor eax,eax ;设置 错误 返回 码 
jmp Done 

(C3. endp 
end 


 tmain 函数 ( 见 清单 18-13 ) 通过 调用 x86-64 汇编 语言 函数 Cc3_ 计算 圆 锥 体 的 表面 积 

和 体积 。 下 面 是 计算 圆锥 体 表面 积 和 体积 的 公式 : 
sa = ar (r+ S774 i ) vol = mr2p13 

fr Cc3 函数 ( 见 清单 18-14) 的 开头 ， 非 易 变 类 型 寄存 器 的 值 被 保存 到 栈 上 ， 然 后 
申请 了 一 段 栈 空 间 ， 并 将 RBP 寄存 器 初始 化 为 当前 函数 的 栈 帧 指针 。 接 着 又 通过 若干 个 
movdqa 指令 ， 把 非 易 变 类 型 的 寄存 器 XMMI2 ~ XMMIS 的 值 保 存 到 栈 上 。 每 个 movdqa 
指令 的 后 面 都 跟着 一 个 .savexmm128 指示 符 ， 和 序言 中 的 其 他 指示 符 类 似 ， 这 个 指示 符 用 
来 通知 汇编 编译 器 在 异常 处 理 表 中 添加 相关 的 数据 ， 以 记录 XMM 寄存 器 被 保存 到 了 栈 上 
的 事实 。.savexmm128 指示 符 中 的 偏 移 值 用 来 指示 被 保存 在 栈 中 的 XMM 寄存 器 的 值 所 在 
的 栈 地 址 相对 于 RSP 寄存 器 的 偏 移 。 请 注意 ，STK_LOCAL2 的 值 必须 大 于 等 于 被 保存 到 
栈 中 的 XMM Du 16， 这 是 为 了 确保 有 足够 的 栈 空间 保存 XMM 寄存 器 的 值 。 
图 18-8 展示 了 在 执行 完 指 令 movdqa xmmword ptr [rbp-STK LOCAL2], xmml5 后 的 栈 布局 
和 寄存 器 值 。 

函数 序言 之 后 的 局 部 变量 LocalVarlA 和 LocalVarlB 只 是 用 作 演 示 目 的 。 随 后 对 函数 
主体 循环 部 分 用 到 的 寄存 器 进行 初始 化 。 请 注意 ， 从 实际 效果 看 ， 这 些 初始 化 很 多 是 没 必 
要 的 。 但 我 们 每 次 都 进行 显 式 的 初始 化 ， 以 展示 非 易 变 类 型 通用 寄存 器 和 XMM 寄存 器 的 
使 用 方法 。 接 下 来 的 代码 实现 了 表面 积 和 体积 的 计算 ， 并 使 用 了 SSE2 双 精 度 浮 点 数 算法 。 

主体 循环 部 分 结束 后 ， 调 用 了 一 系列 的 movdqa 指令 恢复 XMM 寄存 器 的 值 。 函 数 
Cc3_ 接着 释放 占用 的 栈 空间 ， 并 把 先前 保存 的 非 易 变 类 型 通用 寄存 器 的 值 恢复 回去 。 输 
出 18-7 展示 了 示例 程序 CallingConvention3 的 执行 结果 。 


K MEN gon ae 





STK LOCALI 





STK TOTAL 


E = 未 定义 
图 18-8 ”Cc3_ 函数 在 执行 完 指令 movdqa xmmword ptr [rbp-STK. LOCAL2], xmml5 
之 后 的 栈 布 局 和 寄存 器 值 


输出 18-7 示例 程序 CallingConvention3 
Results for CallingConvention3 





r/h: 1.00 1.00 
sa: 7.584476 7.584476 
vol: 1.047198 1.047198 
r/h: 1.00 2.00 
Sa: 10.166407 10.166407 
vol: 2.094395 2.094395 
r/h: 2.00 3.00 
sa: 35.220717 35.220717 
vol: 12.566371 12.566371 
r/h: 2.00 4.00 
sa: 40.665630 40.665630 
vol: 16.755161 16.755161 
r/h: 3.00 5.00 
sa: 83.229761 83.229761 


vol: 47.123890 47.123890 
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r/h: 3.00 10.00 
Sa: 126.671905 126.671905 
vol: 94.247780 94.247780 


18.2.4 简化 序言 和 结语 的 宏 


前 面 三 个 示例 程序 的 目的 是 演示 如 何 遵循 Visual C++ 调用 约定 编写 64 位 非 叶 函数 。 
此 调用 约定 对 函数 序言 和 结语 有 着 很 严格 的 规定 ， 某 种 程度 上 导致 了 编程 的 烦琐 和 哆 叶 ， | ， 
也 可 能 潜藏 着 难以 发 现 的 错误 。64 位 非 叶 函 数 的 栈 布局 ， 主 要 取决 于 需要 用 到 的 非 易 变 [539 
类 型 (包括 通用 的 和 XMM 的 ) 寄存 器 的 数量 ， 以 及 其 他 局 部 变量 需要 用 到 的 空间 ， 正 确 
地 认识 这 一 点 十 分 重要 。 我 们 最 好 是 能 够 想到 某 种 方法 ， 自 动 完 成 和 调用 约定 有 关 的 烦 开 
代码 。 

本 节 的 示例 程序 演示 作者 在 编写 64 位 非 叶 函数 时 使 用 的 宏 定 义 方 法 ， 该 方法 简化 了 
栈 帧 的 创建 并 为 非 易 变 寄存 器 保留 足够 空间 。 清 单 18-5 和 清单 18-6 分 别 列 出 了 示例 程序 
CallingConvention4 的 C++ 和 汇编 语言 源 代 码 。 


清单 18-15 CallingConvention4.cpp 





#include "stdafx.h" 
#include «math.h» 


extern "C" bool Cc4 (const double* ht, const double* wt, int n, double*= 
bsai1, double* bsa2, double* bsa3); 


int tmain(int argc, _TCHAR* argv[]) 


const int n = 6; 

const double ht[n] = { 150, 160, 170, 180, 190, 200 }; 

const double wt[n] = { 50.0, 60.0, 70.0, 80.0, 90.0, 100.0 }; 
double bsai a[n], bsa1_b[n]; 

double bsa2 a[n], bsa2 b[n]; 

double bsa3 a[n], bsa3 b[n]; 


for (int i = 0; i < nj i++) 
bsa1 a[i] = 0.007184 * pow(ht[i], 0.725) * pow(wt[i], 0.425); 
bsa2 a[i] = 0.0235 * pow(ht[i], 0.42246) * pow(wt[i], 0.51456); 


bsa3 a[i] = sqrt(ht[i] * wt[i]) / 60.0; 
} 


Cc4_(ht, wt, n, bsai b, bsa2 b, bsa3 b); 
printf("Results for CallingConvention4 nin"); 


for (int i = 0; i < n; i++) 


{ 
printf("height: %6.11f cm\n", ht[i]); 
printf("weight: %6.11f kg\n", wt[i]); 
printf("BSA (C++): %10.61f %10.61f %10.61f (sq. m)\n", bsa1 a[i],* 
bsa2 a[i], bsa3 a[i]); 
printf("BSA (X86-64): %10.61f %10.61f %10.61f (sq. m)\n", bsa1_b[i],~ 
bsa2 b[i], bsa3 b[i]); 
printf("\n"); 
} 


return 0; 
} 540 
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清单 18-16 CallingConvention4 .asm 


include «MacrosX86-64.inc» 


; 为 BSA 函数 准备 的 浮 点 常量 


.const 

r8 0p007184 real8 0.007184 
r8 0p725 real8 0.725 

r8 0p425 real8 0.425 

r8 0p0235 real8 0.0235 
r8 0p42246 real8 0.42246 
r8 0p51456 real8 0.51456 
r8 60p0 real8 60.0 


.code 
extern pow:proc 


; extern "C" bool Cc4 (const double* ht, const double* wt, int n, double*e 
bsa1, double* bsa2, double* bsa3); 


3 
; 描述 : 下 面 的 函数 演示 宏 的 使 用 : _CreateFrame, _DeleteFrame, EndProlog. 
_SaveXmmRegs, _RestoreXmmRegs 


Cc4 proc frame 
 CreateFrame Cc4 ,16,64,1bx,rsi,r12,113,114,115 
_SaveXmmRegs xmm6,xmm] ,xmm8 , xmm9 
_EndProlog 


; 保存 变量 寄存 器 
mov qword ptr [rbp+Cc4 OffsetHomeRCX],rcx 
mov qword ptr [rbp+Cc4_0ffsetHomeRDX] , rdx 
mov qword ptr [rbp+Cc4 OffsetHomeR8],r8 
mov qword ptr [rbp+Cc4 OffsetHomeR9],r9 


; 初始 化 循环 指针 。 注 意 ， 指 针 保存 在 非 易 变 寄存 器 中 ， 以 避免 调用 pow() 函数 后 
; 重新 加 载 


test r8d,r8d ;n <= 0? 
jle Error ;车 n <= 0， 则 跳 转 
mov [rbp],r8d ;保存 n 到 局 部 变量 
mov r12,rcx ;r12 = 指向 ht 
mov r13,rdx ;r13 = 指向 wt 
mov ri4,r9 ;r14 = 指向 bsal 
mov r15,[rbp4Cc4 OffsetStackArgs] ;r15 = 指向 bsa2 
mov rbx,[rbp+Cc4_OffsetStackArgs+8] ;rbx = 指向 bsa3 
xor rsi,rsi ;数组 元 素 偏 移 

; 在 栈 上 为 pow( ) 函数 分 配 空间 
sub rsp,32 


; 计算 bsal = 0.007184 * pow(ht, 0.725) * pow(wt, 0.425); 

QQ: movsd xmmo,real8 ptr [ri2+rsi] ;xmm0 = 身高 

movsd xmm8,xmmo 

movsd xmmi,real8 ptr [r8 0p725] 

call pow ;xmmo = pow(ht,0.725) 
movsd xmm6 ,xmmo 


movsd xmmO,real8 ptr [r13+rsi] ;xmmO = 体重 
movsd xmm9, xmmO 
movsd xmm1,real8 ptr [r8 0p425] 
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call pow ;xmmo = pow(wt,0.425) 
mulsd xmm6,real8 ptr [x8_0p007184] 
mulsd xmm6, xmmO ;xmm6 = bsai 


; 计算 bsa2 = 0.0235 * pow(ht, 0.42246) * pow(wt, 0.51456); 


movsd xmmo,xmm8 ;xmm0 = 身高 

movsd xmm1,real8 ptr [r8 0p42246] 

call pow 3xmmO = pow(ht,0.42246) 
movsd xmm7,xmmO 

movsd xmmo,xmm9 ;xmm0 = 体重 

movsd xmmi,real8 ptr [r8 0p51456] 

call pow 3xmmO = pow(wt,0.51456) 
mulsd xmm7,real8 ptr [r8 0po235] 

mulsd xmm7,xmmO ;xmm7 = bsa2 


; 计算 bsa3 = sqrt(ht * wt) / 60.0; 
mulsd xmm8,xmm9 
sqrtsd xmm8,xmm8 
divsd xmm8,real8 ptr [r8 60po] ;xmm8 - bsa3 


; 保存 BSA 结果 


movsd real8 ptr [ri4«rsi],xmm6 ;保存 bsal 结果 
movsd Teal8 ptr [ri5+rsi],xmm7 ;保存 bsa2 结果 
movsd real8 ptr [rbx«rsi],xmm8 ;保存 bsa3 结果 
add rsi,8 ;更 新 数值 偏 移 
dec dword ptr [rbp] ;n=n-1 

jnz @B 

mov eax,1 ;设置 成 功 返 回 码 


; 恢复 前 面 保存 的 寄存 器 。 注 意 ，_DeleteFrame 宏 从 rbp 中 恢复 rsp 的 值 ， 意 味 着 
; 不 必 显 式 地 通过 指令 add rsp, 32 来 恢复 pow() 函数 的 栈 空间 
Done: _RestoreXmmRegs xmm6, xmm7 , xmm8 , xmm9 

_DeleteFrame rbx,rsi,r12,113,114,115 

ret 


Error: xor eax,eax ;设置 错误 返回 码 
jmp Done 

Cc4_ endp 
end 


本 示例 程序 和 前 一 个 示例 程序 的 设计 逻辑 类 似 ，_tmain ( 见 清单 18-15 ) 的 主要 目的 
是 执行 64 位 汇编 语言 函数 Cc4_。 这 个 函数 用 来 估算 人 的 体 表 面积 (Body Surface Area, 
BSA)， 它 用 到 了 几 个 广泛 使 用 的 计算 BSA 的 方程 式 ， 定 义 于 表 18-2 中 。 表 中 的 三 个 方程 
式 都 使 用 符号 H RIRE (cm) 为 单位 的 身高 ， 符 号 WRAP yu (kg) 为 单位 的 体重 ， 
并 用 BSA 表示 身体 表面 积 ， 单 位 是 平方 米 (m). 


X 18-2 体 表面 积 (BSA) 计算 方程 式 


F 方程 式 
DuBois 和 DuBois BSA = 0.007184 x H” x W°” 
Gehan 和 George BSA = 0.0235 x H9*6 y Ws 


Mosteller BSA =</H x W / 3600 


LIUM cu uL s 0  L LL Jas 


在 汇编 源 文 件 CallingConvention4 .asm ( 见 清单 18-16) 的 最 开始 部 分 ， 是 一 个 include 
声明 ， 将 文件 Macrosx86-64.inc (此 头 文件 中 的 代码 未 列 出 ) 包含 进来 。 此 文件 位 于 子 目 录 
CommonFiles 中 ， 包 含 了 若干 将 用 于 程序 CallingConvention4 以 及 后 续 示 例 程序 中 的 宏 定 
Xo TE include 声明 的 后 面 定义 了 一 个 .const 段 ， 其 中 定义 了 若干 BSA 计算 方程 式 中 将 会 用 
到 的 浮 点 数 常量 。 

图 18-9 展示 了 一 个 通用 的 64 位 非 叶 函 数 的 栈 布局 ， 请 大 家 注意 它 和 图 18-7 及 图 18-8 
之 间 的 差异 ， 后 者 包含 了 更 多 细节 。 文 件 Macrosx86-64.inc 中 定义 的 所 有 宏 ， 假 设 所 有 函数 
的 基本 栈 布 局 都 符合 图 18-9 的 设计 。 但 同时 ， 这 些 宏 人 允许 函数 自 定义 栈 的 大 小 ， 即 具体 要 
为 非 易 变 寄存 器 预 留 多 少 栈 空间 。 宏 在 其 内 部 实现 了 大 多 数 计算 逻辑 ， 从 而 省 去 了 函数 自身 
的 工作 量 。 








StkSizeTotal 








图 18-9 64 位 非 叶 函数 的 通用 栈 布局 


随后 是 Ccr4_proc frame 声明 ， 接 着 就 是 宏 _CreateFrame， 用 以 产生 初始 化 函数 栈 帧 
的 代码 ， 同 时 也 会 把 指定 的 非 易 变通 用 寄存 器 的 值 保 存在 栈 上 。 这 个 宏 在 调用 时 是 需要 传 
入 一 些 参数 的 ， 包 括 一 个 用 于 标识 的 前 缀 字符 串 以 及 以 字 节 为 单位 的 变量 StkSizeLocall 和 
StkSizeLocal2 ( 见 图 18-9 )。 前 级 字符 串 用 于 符号 名 的 创建 ， 通 过 互相 区 别 的 符号 名 ， 可 以 
引用 栈 中 的 变量 。 前 级 字符 串 可 以 取 任 意 的 唯一 值 ， 一 般 的 习惯 是 以 函数 名 为 其 取 值 内 容 。 
变量 StkSizeLocall 和 StkSizeLocal2 必须 是 16 的 偶数 倍 ， 同 时 ，StkSizeLocal2 不 能 大 于 
240, 但 又 必须 大 于 或 等 于 被 保存 的 XMM 寄存 器 数量 的 16 倍 。 

接 下 来 ， 宏 SaveXmmRegs 用 以 保存 指定 的 非 易 变 XMM 寄存 器 的 值 到 栈 的 特定 区 域 。 
随后 执行 的 是 宏 _EndProlog， 指 示 了 函数 序言 的 结束 。 序 言 结 束 后 ， 寄 存 器 RBP 被 配置 为 
本 函数 的 栈 帧 指针 。 这 时 候 ， 如 果 要 继续 在 栈 上 保存 非 易 变 的 通用 寄存 器 或 XMM 寄存 器 ， 
也 是 安全 的 。 
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Z EndProlog 之 后 的 一 大 块 指令 ， 是 保存 变量 寄存 器 的 值 到 栈 的 特定 备份 空间 中 。 大 
家 可 能 已 经 注意 到 ， 每 个 mov 指令 都 包含 一 个 符号 名 ， 代 表 了 寄存 器 在 栈 上 相对 于 RBP 的 
位 置 偏 移 。 这 些 符号 名 和 对 应 的 偏 移 值 ， 都 是 在 宏 CreateFrame 中 定义 好 的 。 另 外 ， 前 面 
章节 中 已 经 提 到 过 ， 备 份 空间 也 可 以 用 来 保存 临时 数据 。 

接 下 来 的 代码 初始 化 与 循环 处 理 相关 的 变量 。 寄 存 器 RSD 中 保存 的 变量 n 用 来 进行 合 
法 性 判断 ， 作 为 局 部 变量 保存 在 栈 中 。 多 个 非 易 变 寄 存 器 被 初始 化 为 指针 寄存 器 。 非 易 变 寄 
存 器 的 使 用 ， 可 避免 每 次 在 调用 库 函 数 pow 后 重新 加 载 寄存 器 值 。 注 意 ， 指 向 数组 bsa2 的 
指针 的 值 ， 是 通过 指令 mov r15, [rbp+Cc4 OffsetStackArgs] 从 栈 上 获取 的 。 符 号 常量 Cc4 
OffsetStackArgs 也 是 经 由 宏 _CreateFrame 而 自动 创建 的 ， 其 值 等 于 第 一 个 栈 变量 相对 RBP 
的 栈 偏 移 。 指 令 mov rbx, [rbp+Cc4 OffsetStackArgs--8] 将 变量 bsa3 的 值 加 载 到 RBX 寄存 
器 ， 常 量 偏 移 +8 的 存在 ， 是 因为 bsa3 是 栈 上 的 第 二 个 参数 变量 。- 

Visual C++ 调用 约定 需要 主 调 函 数 为 被 调 函 数 申 请 备份 空间 ， 指 令 sub rsp 32 就 是 完成 
这 个 任务 的 。 随 后 的 指令 块 就 是 实现 BSA 计算 的 逻辑 部 分 ， 使 用 的 是 表 18-2 中 的 方程 式 。 
请 注意 ， 每 次 调用 函数 pow 之 前 ， 都 会 为 寄存 器 XMM0 和 XMMI 加 载 相 应 的 值 。 同 时 ， 
函数 pow 的 返回 值 ， 通 常 也 是 先 被 保存 在 XMM 寄存 器 中 。 

计算 BSA 的 逻辑 部 分 处 理 完 后 ， 就 是 函数 结语 。 在 ret 指令 被 执行 前 ，Cc4_ 琐 数 需要 
先 恢复 所 有 非 易 变 通用 寄存 器 和 XMM 寄存 器 的 值 ， 同 时 释放 栈 帧 。 宏 RestoreXmmRegs 
用 来 恢复 XMM 寄存 器 。 请 注意 ， 传 递 给 这 个 宏 的 寄存 器 参数 的 数量 和 顺序 ， 必 须 和 函数 
序言 部 分 的 宏 _SaveXmmRegs 被 调用 时 保持 一 致 。 宏 _DeleteFrame 用 来 恢复 其 他 非 易 变 
的 通用 寄存 器 ， 并 清除 栈 帧 。 同 样 ， 寄 存 器 参数 的 传递 顺序 ， 也 必须 和 宏 CreateFrame f& 
持 一 致 。 注 意 ， 宏 _DeleteFrame 用 RBP 的 值 来 恢复 RSP 寄存 器 的 值 ， 这 样 避免 了 通过 显 
式 地 执行 指令 add rsp, 32 来 恢复 栈 。 输 出 18-8 显示 了 示例 程序 CallingConvention4 的 执行 
结果 。 


输出 18-8 Sample Program CallingConvention4 


Results for CallingConvention4 


height: 150.0 cm 
weight: 50.0 kg 
BSA (C++): 1.432500 1.460836 1.443376 (sq. m) 
BSA (X86-64): 1.432500 1.460836 1.443376 (sq. m) 


height: 160.0 cm 
weight: 60.0 kg 
BSA (C++): 1.622063 1.648868 1.632993 (sq. m) 
BSA (X86-64): 1.622063 1.648868 1.632993 (sq. m) 


height: 170.0 cm 
weight: 70.0 kg 
BSA (C++): 1.809708 1.831289 1.818119 (sq. m) 
BSA (X86-64): 1.809708 1.831289 1.818119 (sq. m) 


height: 180.0 cm 
weight: 80.0 kg 
BSA (C++): 1.996421 2.009483 2.000000 (sq. m) 
BSA (X86-64): 1.996421 2.009483 2.000000 (sq. m) 


height: 190.0 cm 
weight: 90.0 kg 
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BSA (C++): 2.182809 2.184365 2.179449 (sq. m) 


BSA (X86-64): 2.182809 2.184365 2.179449 (sq. m) 


height: 200.0 cm 
weight: 100.0 kg 
BSA (C++): 2.369262 2.356574 2.357023 (sq. m) 
BSA (X86-64): 2.369262 2.356574 2.357023 (sq. m) 


18.3 x86-64 数组 和 字符 串 


本 节 的 示例 程序 将 演示 如 何 使 用 x86-64 指令 集 操纵 常见 的 编程 结构 。 第 一 个 程序 演示 
如 何 利 用 64 位 指针 来 处 理 二 维 数组 中 的 元 素 。 第 二 个 程序 演示 若干 字符 串 处 理 指 令 的 使 用 。 
这 两 个 程序 都 遵循 和 使 用 前 面 讲 到 的 调用 约定 以 及 相关 的 宏 。 


18.3.1 二 维 数 组 


第 2 章 中 ， 我们 已 经 学 习 了 如 何 利用 一 块 连续 的 内 存 和 简单 的 指针 操作 ， 实 现 一 个 二 
维 数组 和 或 矩阵 。 本 示例 程序 使 用 类 似 的 指针 操作 方法 ， 实 现 一 个 x86-64 的 矩阵 乘法 函数 。 
清单 18-7 和 清单 18-8 分 别 包 含 了 示例 程序 MatrixMul 的 C++ 和 汇编 语言 源 代码 。 


清单 18-17 MatrixMul.cpp 


#include "stdafx.h" 
#include «stdlib.h» 


extern "C" double* MatrixMul (const double* m1, int nri, int nci, conste 
double* m2, int nr2, int nc2); 


void MatrixPrint(const double* m, int nr, int nc, const char* s) 


{ 
printf("%s\n", s); 


if (m !- NULL) 
for (int i = 0; i < nr; i++) 
{ 
for (int j = 0; j < nc; j++) 
double m val = m[i * nc + j]; 
printf("X8.11f ", m val); 
printf("\n"); 
} 
} 
else 


printf("NULL pointer\n"); 


double* MatrixMulCpp(const double* m1, int nr1, int nci, const double* m2,« 
int nr2, int nc2) 


if ((nri « 0) || (nci « 0) || (nr2 < 0) || (nc2 < 0)) 
return NULL; 

if (nci l= nr2) 
return NULL; 


double* m3 - (double*)malloc(nri * nc2 * sizeof(double)); 
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) 





for (int i = 0; i < nri; i++) 
for (int j = 0; j < nc2; j++) 


double sum = 0; 
for (int k = 0; k < nci; k++) 


double m1 val = mi[i * nci + k]; 
double m2 val = m2[k * nc2 + j]; 
sum += m1 val * m2 val; 


} 
m3[i * nc2 + j] = sum; 


} 


return m3; 


void MatrixMul1(void) 


{ 


} 


const int nr1 = 3; 
const int ncl = 2; 
const int nr2 = 2; 
const int nc2 
double mi[nr1 * nc1] = { 6, 2, 4, 3, -5, -2 }; 

double m2[nr2 * nc2] = { -2, 3, 4, -3, 6, 7 }5 

double* m3 a = MatrixMulCpp(mi, nri, nci, m2, nr2, nc2); 
double* m3 b = MatrixMul (mi, nri, nci, m2, nr2, nc2); 


* * 


printf("\nResults for MatrixMul1()\n"); 
MatrixPrint(m1, nri, nci, "Matrix m1"); 
MatrixPrint(m2, nr2, nc2, "Matrix m2"); 
MatrixPrint(m3 a, nri, nc2, "Matrix m3 a"); 
MatrixPrint(m3 b, nri, nc2, "Matrix m3 b"); 
free(m3 a); 

free(m3 b); 


void MatrixMul2(void) 


{ 


int 


const int nri = 2; 
const int ncl = 3; 
const int nr2 = 3; 
const int nc2 = 4; 


double mi[nri * nc] = { 5, -3, 2, -2, 5, 4 }; 

double m2[nr2 * nc2] = { 7, -4, 3, 3, 2, 6, -2, 5, 4, 9, 3, 5 }; 
double* m3 a = MatrixMulCpp(m1, nri, nci, m2, nr2, nc2); 

double* m3 b = MatrixMul (mi, nri, nci, m2, nr2, nc2); 


* * I 


printf("\nResults for MatrixMul2()\n"); 
MatrixPrint(m1, nri, nci, "Matrix m1"); 
MatrixPrint(m2, nr2, nc2, "Matrix m2"); 
MatrixPrint(m3 a, nri, nc2, "Matrix m3 a"); 
MatrixPrint(m3 b, nri, nc2, "Matrix m3 b"); 
free(m3 a); 

free(m3 b); 


_tmain(int argc, _TCHAR* argv[]) 


MatrixMuli(); 


547 
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; extern "C" double* MatrixMul (const double* m1, int nri, int nci, conste 


MatrixMul2(); 
return 0; 


清单 18-18 MatrixMul_.asm 


include «MacrosX86-64.inc» 
.code 
extern malloc:proc 


double* m2, int nr2, int nc2); 


; 描述 。 下 面 的 函数 计算 两 个 矩阵 乘 的 积 


MatrixMul proc frame 


 CreateFrame MatMul ,0,0,rbx,r12,r113,114,115 


_EndProlog 
; 验证 矩阵 大 小 
movsxd r12,edx 3£12 = hri 
test r12,r12 
jle Error iE nni <= 0， 则 跳 转 
movsxd r13,r8d ;113 - nc1 
test r13,r113 
jle Error SÉ ncl <= 0， 则 跳 转 


jle Error ;车 nc2 <= 0， 则 跳 转 

cmp r13,r14 

jne Error ;车 ncl != nr2， 则 跳 转 
; 分 配 空间 


movsxd 114,dword ptr [rbp+MatMul_OffsetStackArgs] 3x14 = nr2 
test r14,114 
jle Error iE nr2 <= 0, WBE 


movsxd ri5,dword ptr [rbp+MatMul_OffsetStackArgs+8]  ;r15 = nc2 
test r15,r15 


mov [rbp+MatMul_OffsetHomeRCX],rcx ;save m1 
mov [rbp«MatMul OffsetHomeR9],r9 ^ ;save m2 


mov rcx,r12 ;ICX = nri 

imul rcx,r15 ;ICX = nr1 * nc2 

shl rcx,3 ;ICX = nri * nc2 * size real8 
sub rsp,32 ;分 配 空间 

call malloc 

mov rbx,rax ;rbx = 指向 m3 


; 初始 化 源 和 矩阵 指针 和 行 索 引 i 


mov rcx,[rbp+MatMul OffsetHomeRCX] ;rcx = 指向 ml 
mov rdx, [rbp+MatMul OffsetHomeR9] ;rdx = 指向 m2 
xor r8,r8 ;is0 


; 初始 化 列 索 引 变 量 j 


Lp1: 


xor r9,r9 ;jj=0 


; 初始 化 sum 和 索引 k 


Lp2: 


xorpd xmm4,xmm4 jsum = 0; 
xor r10,r10 ski = 03 


£18* 
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; 计算 sum += mi[i * nci + k] * m2[k * nc2 + j] 


Lp3: mov rax,r8 ;rax = i 
imul rax,r13 jxax m * Wel 
add rax,r10 jrax = i * nc1 +k 
movsd xmmO,real8 ptr [rcx«rax*8] ;xmmo = mi[i * nci + k] 
mov r11,r10 2x14 = k 
imul r11,r15 ;r14 = k * ne2 
add r11,r9 3711 = k * nc2 + j 
movsd xmmi,real8 ptr [rdx«r11*8] ;xmm1 = m2[k * nc2 + j] 
mulsd xmmo,xmm1i ;xmmo = mi[i * nci + k] * m2[k * nc2 + j] 
addsd xmm4,xmmO ;更 新 sum 
inc r10 ;k++ 
cmp r10,r13 
jl Lp3 ;车 k < nci 则 跳 转 
;保存 sum 到 m3[i * nc2 + j] 
mov rax,r8 ;rax = i 
imul rax,r15 stak = 1 * nc2 
add rax,r9 ;rax = i * nc2 + j 


movsd real8 ptr [rbx«rax*8],xmm4 ;m3[i * nc2 + j] = sum 


; 更 新 循环 计数 并 重复 ， 直 到 结束 


inc r9 ;j++ 
cmp r9,r15 
jl Lp2 3j < nc2 WBE 
inc r8 e 
cmp r8,r12 
jl Lpi jÆ i < nra 则 跳 转 
mov rax,rbx jrax = 指向 m3 
Done: _DeleteFrame rbx,r12,r13,r14,r15 
ret 
Error: xor rax,rax ;返回 NULL 
jmp Done 
MatrixMul endp 
end 


下 面 给 出 矩阵 乘法 的 定义 。 假 设 4 是 一 个 m 行 n 列 的 和 矩阵， B 是 n 行 p 列 的 和 矩阵， 则 
和 矩阵 C=4B(C j&€— mr p TUBE) 的 计算 公式 如 下 : 


cy -S, anbu i—0,-:,m-1,j —0,*, p-1 

在 C++ 源 文件 MatrixMul.cpp ( 见 清单 18-17) 中 ,包含 了 一 个 名 为 MatrixMulCpp 的 函 
数 ， 它 计算 和 矩阵 乘积 。 它 首先 对 矩阵 的 大 小 进行 必要 的 验证 ， 然 后 申请 一 块 内 存 ， 以 容纳 新 
生成 的 矩阵 。 此 后 根据 上 面 提 到 的 公式 ， 对 两 个 矩阵 进行 乘法 和 运算。 文件 MatrixMul.cpp 中 
剩余 的 代码 ， 创 建 了 一 些 和 矩阵 乘积 的 测试 用 例 ， 并 打印 结果 以 展示 和 上 比较。 

清单 18-8 包含 了 函数 MatrixMul_ 的 64 位 汇编 语言 源 代 码 。 开 头 部 分 是 对 函数 的 声明 ， 
紧 接 着 宏 CreateFrame 被 执行 ， 保 存 必要 的 非 易 变 寄存 器 的 值 ， 并 初始 化 栈 帧 指针 。 注 意 ， 
传递 给 宏 _CreateFrame 的 两 个 栈 空间 变量 的 值 都 是 0， 这 是 因为 函数 MatrixMul 并 没有 用 
到 任何 局 部 变量 或 XMM 寄存 器 。 定 义 矩 阵 大 小 的 变量 nrl 、ncl1、nr2 nc2 被 分 别 加 载 到 
寄存 器 R12、R13、R14 和 R15 中 。 另 外 请 注意 ， 在 作为 函数 参数 传递 时 ，nrl 和 ncl 通过 


0 A E 


寄存 器 EDX 和 R8D 传递 ， 而 nr2 和 nc2 通过 栈 传递 。 

用 于 保存 新 生成 的 矩阵 的 内 存 空 间 ， 是 通过 调用 标准 库 函 数 malloc 来 实现 的 。 调 用 
malloc 前 ， 指 向 源 和 矩阵 m1 和 m2 的 指针 被 保存 在 各 自 的 栈 备 份 空间 中 ， 后 面 它们 将 分 别 以 
寄存 器 RCX 和 RO 作为 调用 参数 传递 给 函数 MatrixMul 。 指 令 sub rsp 32 用 来 为 malloc 调 

ssi] 用 申请 必要 的 栈 空间 。 

目标 矩阵 的 内 存 申请 好 之 后 ， 源 矩阵 指针 ml m2 的 值 被 分 别 加 载 到 寄存 器 RCX 和 
RDX 中 。 函 数 接着 会 通过 一 个 三 层 循环 结构 计算 矩阵 乘积 。 逻 辑 和 C++ 代码 相同 。 所 有 双 
精度 浮 点 数 运算 ， 都 是 经 由 易 变 XMM 寄存 器 来 完成 的 。 三 层 循环 结束 后 ， 宏 _DeleteFrame 
被 调用 ， 以 恢复 非 易 变 通用 寄存 器 的 值 。 输 出 18-9 列 出 了 示例 程序 MatrixMul 的 执行 结果 。 


输出 18-9 示例 程序 MatrixMul 
Results for MatrixMul1() 


Matrix m1 
6.0 2.0 
4.0 3.0 
-5.0 -2.0 
Matrix m2 
-2.0 3.0 4.0 
-3.0 6.0 7.0 
Matrix m3 a 


-18.0 30.0 38.0 

-17.0 30.0 37.0 

16.0 -27.0 -34.0 
Matrix m3 b 

-18.0 30.0 38.0 

-17.0 30.0 37.0 

16.0 -27.0 -34.0 


Results for MatrixMul2() 


Matrix m1 
5.0 -3.0 2.0 
-2.0 5.0 4.0 
Matrix m2 
7.0 -4.0 3.0 3.0 
2.0 6.0 -2.0 5.0 
4.0 9.0 3.0 5.0 
Matrix m3 a 
37.0 -20.0 27.0 10.0 
12.0 74.0 -4.0 39.0 
Matrix m3 b 
37.0 -20.0 27.0 10.0 
552 12.0 74.0 -4.0 39.0 
18.3.2 FRR 


本 章 最 后 一 个 示例 程序 是 ConcatStrings， 它 是 第 2 章 的 x86-32 字符 串 拼接 程序 的 x86- 
64 版 本 。 当 时 我 们 利用 scasw 和 movsw 指令 把 多 个 字符 串 拼 接 在 一 起 。 清 单 18-19 和 清单 
18-20 分 别 包 含 了 示例 程序 ConcatStrings 的 C++ 和 汇编 语言 源 代码 。 


清单 18-19 ConcatStrings.cpp 
#include "stdafx.h" 


extern "C" int ConcatStrings (wchar t* des, int des size, const wchar_t*= 
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const* src, int src n); 


int tmain(int argc, _TCHAR* argv[]) 


{ 
printf("\nResults for ConcatStrings n"); 
// 目标 缓冲 区 足够 大 
wchar t* srci[] = ( L"One ", L"Two ", L"Three ", L"Four" ); 
int srci n - sizeof(srci) / sizeof(wchar t*); 
const int des1 size = 64; 
wchar t desi[des1 size]; 
int desi len - ConcatStrings (desi, desi size, srci, srci n); 
wchar t* desi temp = (*desi != '\0') ? desi : L"<empty>"; 
wprintf(L" des len: Xd (Xd) des: Xs \n", desi len, wcslen(desi temp), 
desi temp); 
// 目标 缓冲 区 太 小 
wchar t* src2[] = { L"Red ", L"Green ", L"Blue ", L"Yellow " ); 
int src2 n - sizeof(src2) / sizeof(wchar t*); 
const int des2 size - 16; 
wchar t des2[des2 size]; 
int des2 len - ConcatStrings (des2, des2 size, src2, src2 n); 
wchar t* des2 temp = (*des2 != '\0') ? des2 : L"<empty>"; 
wprintf(L" des len: Xd (Xd) des: Xs Xn", des2 len, wcslen(des2 temp), ~ 
des2 temp); 
// 空 字符 串 测 试 
wchar t* src3[] = ( L"Airplane ", L"Car ", L"", L"Truck ", L"Boat " }; 
int src3 n - sizeof(src3) / sizeof(wchar t*); 
const int des3 size - 128; 
wchar t des3[des3 size]; 553 
int des3 len - ConcatStrings (des3, des3 size, src3, src3 n); 
wchar t* des3 temp = (*des3 !- '\O') ? des3 : L"<empty>"; 
wprintf(L" des len: %d (Xd) des: Xs Xn", des3 len, wcslen(des3 temp), ~ 
des3 temp); 
return 0; 
} 





is 18-20 ConcatStrings_.asm 


include «MacrosX86-64.inc» 
.code 


; extern "C" int ConcatStrings (wchar t* des, int des size, const wchar t*e 
const* src, int src n) 

j 

; HR: 本 函数 把 两 个 字符 串 合 并 为 一 个 目标 字符 串 

j 

; 返回 : -1 无 效 的 des size sX src n 

E n >= 0 连接 后 的 字符 囊 长 度 


ConcatStrings proc frame 
_CreateFrame ConcatStrings ,0,0,rbx,rsi,rdi 
_EndProlog 


; 确保 des_size 和 src_n 大 于 0 
movsxd rdx,edx ;rdx = des size 
test rdx,rdx 
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jle Error 3% des size <= 0 则 跳 转 
movsxd r9,r9d ;19 = src n 
test r9,r9 
jle Error iE src n <= 0 则 跳 转 
; 做 必要 初始 化 
mov rbx,rcx ;rbx = des 
xor r10,r10 ;des index = 0 
xor r11,r11 31 =0 
mov word ptr [rbx],r10w ;*des = '\0'; 


; 重复 循环 ， 直 到 合并 完成 


Lp1: mov rdi, [r8+r11*8] ;rdi = sreli] 
mov rsi,rdi irs s src[t] 

; 计算 s[i] KE 
xor rax,rax 

554 mov rcx,-1 

repne scasw S&I 'NO* 
not rcx 
dec rcx ;rcx = len(src[i]) 


; 计算 des index + src len 
mov rax,r10 
add rax,rcx 


;rax- des index 
;rax = des index + len(src[i]) 


; des index + src len »- des size? 
cmp rax,rdx 
jge Done 


; #N src[i] 8| &des[des index] (rsi 总 是 包含 src[i]) 


inc rcx ;rcx = len(src[i]) + 1 
lea rdi,[rbx«r10*2] ;rdi - &des[des index] 
rep movsw ;进行 字符 串 移动 


; 更 新 des index 
mov r10,rax ;des index += len(src[i]) 
4 src n <= O 则 跳 转 
; 更 新 并 重复 循环 ， 直 到 完成 
inc r11 ji 41 
cmp ri1,r9 ji >= src n? 
jl Lp1 si < src_n 则 跳 转 


; 返回 合并 后 字符 串 的 长 度 
Done: mov eax,r1i0d 
_DeleteFrame rbx,rsi,rdi 
ret 


jeax = trunc(des index) 


; 返回 错误 代码 
Error: mov eax,-1 
 DeleteFrame rbx,rsi,rdi 
ret 


ConcatStrings endp 
end 


细心 的 读者 可 能 注意 到 ，C++ 源 文件 ConcatStrings.cpp ( 见 清单 18-19) 和 第 2 章 是 一 
模 一 样 的 。 主 要 功能 是 创建 若干 个 测试 用 例 来 调用 汇编 语言 函数 ConcatStrings 并 打印 其 结 
果 。 清 单 18-20 是 函数 ConcatStrings 的 x86-64 汇编 实现 。 因 为 这 个 函数 本 身 没 有 使 用 任何 
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局 部 变量 ， 所 以 直接 使 用 宏 | CreateFrame 来 简单 保存 非 易 变 寄 存 器 RBX、RSI 和 RDI 的 值 。 
函数 接 下 来 验证 长 度 变量 des size (通过 RDX 传递 ) 和 src n (通过 寄存 器 RO 传递 ) 。 注 意 ， 
在 代码 实现 中 ， 是 先 把 这 两 个 值 符 号 扩展 为 64 位 然后 再 进行 验证 的 。 555 

指令 mov rbx, rcx 将 寄存 器 RBX 的 值 复制 到 变量 des 中 ，RCX 用 来 给 指令 scasw 和 
movsw 传递 数量 值 。 在 主 循环 部 分 ， 先 是 通过 指令 mov rdi, [r8+r11*8] 将 src[i] 的 内 容 加 载 
到 寄存 器 RDI。 这 里 用 到 了 一 个 值 为 8 的 乘 数 ， 是 因为 sreli] 中 所 有 的 字符 串 的 地 址 长 度 都 
是 8 字 节 。 接 下 来 ， 用 scaws 指令 计算 字符 串 的 长 度 。 函 数 此 时 会 判断 des 是 否 有 足够 的 空 
间 容 纳 新 的 字符 串 内 容 。 如 果 发 现 空间 不 足 ， 循 环 就 中 止 。 

函数 ConcatStrings_ 有 两 个 函数 结语 。 虽 然 这 种 设计 对 于 本 函数 并 非 必 要 ， 但 有 些 
函数 却 可 以 通过 这 种 方式 有 效 提高 执行 的 效率 。 这 种 方式 避免 了 jmp 指令 的 使 用 。 两 个 
函数 结语 都 使 用 宏 _ DeleteFrame 来 恢复 非 易 变 寄存 器 的 值 。 输 出 18-10 列 出 了 示例 程序 
ConcatStrings 的 执行 结果 。 


输出 18-10 ”示例 程序 ConcatStrings 


Results for ConcatStrings 
des len: 18 (18) des: One Two Three Four 
des len: 15 (15) des: Red Green Blue 
des len: 24 (24) des: Airplane Car Truck Boat 


18.4 总 结 

本 章 集 中 介绍 了 使 用 汇编 语言 编写 x86-64 程序 。 我 们 学 习 了 x86 汇编 语言 编程 的 基础 
知识 ， 包 括 整数 运算 、 内 存 寻 址 和 标量 浮 点 数 运算 ; 另外 还 学 习 了 关于 调用 约定 的 使 用 技巧 
和 编程 经 验 。 接 下 来 的 两 章 将 继续 探索 x86-64 平台 ,解析 SIMD 部 分 。 556 
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前 两 章 中 ， 我 们 集中 介绍 了 x86-64 平台 的 基础 及 其 核心 架构 。 本 章 我 们 将 进一步 探讨 
x86-64 平 台 的 单 指令 多 数据 流 (SIMD) 架构 ， 包 括 x86-SSE 和 x86-AVX 计算 资源 。19.1 
节 我 们 将 学 习 64 位 x86-SSE 的 执行 环境 ， 包 括 其 寄存 器 集合 、 所 支持 的 数据 类 型 以 及 指令 
集 。19.2 节 我 们 将 以 同样 的 顺序 介绍 64 位 x86-AVX 的 执行 环境 。 

对 这 一 章 的 学 习 ， 我 们 假定 读者 已 对 本 书 前 几 章 中 关于 x86-SSE 和 x86-AVX 的 内 容 有 
了 基本 的 了 解 。 鉴 于 x86-32 和 x86-64 平 台 上 的 SIMD 架构 有 很 高 的 相似 度 ， 本 章 将 刻意 
从 简 。 在 接 下 来 的 讨论 中 ,我们 会 在 必要 的 时 候 将 “ -32” 或 “-64” 加 在 x86-SSE 和 x86- 
AVX 两 个 术语 后 面 ， 以 便 区 分 32 位 和 64 位 SIMD 架构 。 


19.1 x86-SSE-64 执行 环境 

本 节 将 讨论 x86-SSE-64 的 执行 环境 ， 包 括 其 寄存 器 集合 和 支持 的 数据 类 型 。 从 应 用 程 
序 的 角度 看 ， 大 多 数 x86-SSE-64 和 x86-SSE-32 之 间 的 差异 都 是 微不足道 的 。 两 个 环境 使 用 
相同 的 指令 、 操 作 数 和 组 合 数据 类 型 。 

正如 我 们 在 第 17 章 中 提 到 的 ， 所 有 x86-64 兼容 的 处 理 器 都 包含 SSE2 的 计算 资源 。 但 
不 同 的 x86-64 处 理 器 对 SSE2 后 续 扩 展 (SSE3、SSSE3、SSE4.1 和 SSE4.2 ) 的 支持 有 所 不 
同 ， 主 要 取决 于 处 理 器 所 使 用 的 微 架构 。 应 用 程序 应 该 使 用 cpuid 指令 来 检测 某 个 特定 的 
SSE2 扩展 功能 是 否 可 用 。 


19.1.4 x86-SSE-64 寄存 器 组 


x86-SSE-64 寄存 器 组 包括 16 个 128 位 寄存 器 ， 这 
些 寄 存 器 依次 被 命名 为 XMM0 ~ XMM15， 如 图 19-1 
所 示 。XMM 寄存 器 支持 使 用 组 合 整 型 操作 数 的 SIMD 
操作 。 同 时 ， 这 些 寄 存 器 还 可 用 来 进行 标量 和 组 合 浮 
点 计算 ,使 用 单 精度 值 和 双 精 度 值 均 可 。 

x86-64 汇编 语言 函数 可 以 使 用 x86-SSE 控制 — 状 
态 寄 存 器 MXCSR 来 选择 SIMD 的 浮 点 配置 选项 。 通 过 
对 MXCSR 中 的 状态 位 的 检查 我 们 可 以 获取 SIMD 浮 
点 运算 的 错误 状态 。 在 x86-64 和 x86-32 的 执行 环境 
中 ，MXCSR 中 的 每 个 控制 位 和 状态 位 的 用 途 和 操作 方 
法 都 是 一 样 的 。 关 于 这 一 点 ， 在 第 7 章 ， 特 别 是 在 图 
7-3 和 表 7-2 中 已 有 详细 论述 。 第 8 章 中 包含 了 一 个 演示 
MXCSR 寄存 器 的 使 用 方法 的 示例 程序 。 


19.1.2 x86-SSE-64 数据 类 型 图 19-1. x86-SSE-64 寄存 器 组 
x86-SSE-64 与 x86-SSE-32 支持 相同 的 数据 类 型 ， 包 括 组 合 整 型 数 (8 位 、16 位 、32 位 和 
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64 位 )、 标 量 浮 点 数 (32 位 单 精 度 和 64 位 双 精 度 ) 和 组 合 浮 点 数 (32 位 单 精 度 和 64 位 双 精 
度 )。 图 7-2 显示 了 x86-SSE 的 数据 类 型 。 除 了 一 小 部 分 指令 以 外 ， 内 存 中 所 有 128 位 的 组 合 
整数 和 浮 点 操作 数 都 必须 进行 16 字 节 边界 对 齐 。 标 量 浮 点 操作 数 的 对 齐 不 是 必需 的 ， 但 出 于 
性 能 的 考虑 我 们 仍 强烈 建议 对 齐 。 第 7 章 中 包含 了 关于 x86-SSE 数据 类 型 的 更 多 信息 。 


19.1.3 x86-SSE-64 指令 集 概述 


除了 一 小 部 分 指令 需要 通用 寄存 器 作为 操作 数 以 外 ，x86-SSE-64 的 指令 集 本 质 上 与 
x86-SSE-32 是 一 样 的 。 所 有 使 用 通用 寄存 器 操作 数 的 x86-SSE 指令 都 已 被 扩展 成 支持 64 位 
通用 寄存 器 操作 数 。 表 19-1 列 出 了 可 以 使 用 64 位 通用 寄存 器 操作 数 的 x86-SSE 指令 。 表 中 
使 用 了 DPFP 和 SPFP 两 个 缩写 来 分 别 代表 双 精 度 浮 点 数 和 单 精度 浮 点 数 。 


c 19-1 x86-SSE 64 位 通用 寄存 器 指令 


助 记 符 Ho à $ 
cvtsd2si 将 标量 DPFP 转换 成 有 符号 整 型 数 
cvtsi2sd 将 有 符号 整 型 数 转换 成 标量 DPFP 
cvtsi2ss 将 有 符号 整 型 数 转 换 成 标量 SPFP 
cvtss2si 将 标量 SPFP 转换 成 有 符号 整 型 数 
cvttsd2si 将 标量 DPFP 转换 成 有 符号 整 型 数 ， 带 数据 截断 
cvttss2si 将 标量 SPFP 转换 成 有 符号 整 型 数 ， 带 数据 截断 
movmskpd 提取 组 合 DPFP 的 符号 位 
movmskps 提取 组 合 SPFP 的 符号 位 
movq 移动 64 位 数据 
pextrq 提取 64 位 数据 
pinsrq 插入 64 位 数据 
pmovmskb 移动 8 位 掩 码 


x86-SSE 指令 在 64 位 和 32 位 处 理 器 模式 下 的 执行 过 程 都 是 一 样 的 。 当 处 于 64 位 模式 
时 ， 有 一 些 x86-SSE 组 合 字符 串 指令 使 用 64 位 隐 式 寄存 器 操作 数 ， 而 不 是 32 位 。 例 如， 
pcmpestri 和 pcmppestrm 两 个 指令 中 需要 使 用 的 字符 串 片 段 长 度 就 必须 放 和 人 RAX fI RDX 
中 ， 而 不 是 EAX 和 EDX 中 。 同 理 ，pcmpestri 和 pcmpistri 指令 会 将 计算 出 来 的 字符 索引 放 
入 RCX 中 而 不 是 ECX 中 。 


19.2 x86-AVX 执行 环境 

本 节 我 们 将 讨论 x86-AVX-64 的 执行 环境 ， 包 括 其 寄存 器 集 和 支持 的 数据 类 型 。 和 x86- 
SSE 类 似 ， 绝 大 多 数 x86-AVX-64 和 x86-AVX-32 执行 环境 之 间 的 差异 相对 来 讲 都 是 很 小 
的 。 但 需要 注意 的 是 ， 并 不 是 所 有 兼容 x86-64 的 处 理 器 都 支持 x86-AVX。 应 用 程序 需要 使 
用 cpuid 指令 来 检测 其 宿主 处 理 器 是 否 支 持 AVX、AVX2 或 任何 x86-AVX 衍生 的 扩展 功能 
(如 FMA)。 


19.2.1 x86-AVX-64 寄存 器 组 


x86-AVX-64 寄存 器 组 包含 了 16 个 256 位 寄存 器 ， 它 们 依次 被 命名 为 YMM0 ~ YMMIS, 
这 些 寄存 器 可 以 用 来 操作 各 种 数据 类 型 ， 包 括 组 合 整 型 数 、 组 合 浮 点 数 和 标量 浮 点数 。 每 一 个 
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YMM 寄存 器 的 低 128 位 都 以 对 应 的 XMM 寄存 器 来 作为 别名 ， 如 图 19-2 所 示 。 大 多 数 x86- 
560] AVX-64 指令 都 可 以 使 用 任何 XMM 或 YMM 寄存 器 作为 操作 数 。 


19.2.2 x86-AVX-64 数据 类 型 


x86-AVX-64 支 持 的 数据 类 型 与 x86- 
AVX-32 相同 ， 包 括 组 合 整 型 、 标 量 浮 点 数 和 
组 合 浮 点 数 。 第 12 章 详 细 讨 论 了 这 些 数 据 类 
型 ， 它 们 也 被 列 在 了 图 12-2 中 。 大 多 数 x86- 
AVX 指令 都 可 以 使 用 XMM 或 YMM 来 操作 
相应 的 128 位 和 256 位 的 组 合 操作 数 。 我 们 
在 第 12 章 中 讨论 过 的 宽松 的 内 存 对 齐 要 求 同 
样 适 用 于 x86-AVX-64 的 内 存 操作 数 。 此 处 
我 们 再 强调 一 下 ， 除 了 显 式 访 问 对 齐 的 128 
位 或 256 位 内 存 操作 数 的 数据 传输 指令 以 外 ， 
x86-AV X 操作 数 的 对 齐 不 是 必需 的 。 但 我 们 
强烈 建议 进行 这 样 的 内 存 对 齐 ， 以 获得 最 佳 

561] 的 性 能 。 


19.2.3 x86-AVX-64 指令 集 概述 


除了 一 些 需要 通用 寄存 器 操作 数 的 指令 以 外 ，x86-AVX-64 指令 集 与 x86-AVX-32 指令 
集 基 本 上 一 样 。 表 19-1 中 所 列 指 令 的 x86-AVX 形式 都 可 以 使 用 64 位 通用 寄存 器 操作 数 。 
使 用 VSIB 内 存 寻 址 的 指令 (如 vgatherdpd、vgatherdps 等 ) 还 可 以 将 64 位 通用 寄存 器 作为 
它们 的 基 址 寄存 器 操作 数 。 

x86-AVX 指令 的 执行 在 64 位 和 32 位 的 状态 下 也 没什么 不 同 ， 包 括 使 用 XMM 寄存 器 
作为 操作 数 时 对 YMM 寄存 器 高 128 位 的 清 零 ， 以 及 会 影响 到 x86-AVX 标量 浮 点 操作 数 中 
未 使 用 的 寄存 器 位 的 处 理 规则 。x86-64 汇编 语言 函数 应 该 使 用 vzeroupper 或 vzeroall 指令 
来 避免 潜在 的 状态 转换 延迟 ， 这 种 延迟 可 能 会 在 x86-AVX 和 x86-SSE 指令 切换 的 时 候 发 生 。 
第 12 章 中 ， 我 们 详细 讨论 了 上 述 问 题 ， 以 及 使 用 x86-AVX 指令 集 编程 的 其 他 问题 。 


19.3 总 结 


在 这 一 章 里 ， 你 了 解 了 x86-SSE-64 和 x86-AVX-64 的 架构 ， 应 该 也 体会 到 了 64 位 
SIMD 架构 和 与 其 对 应 的 32 位 架构 之 间 的 相似 性 。x86-SSE-64 和 x86-AVX-64 中 的 大 量 寄 
存 器 为 我 们 提供 了 很 多 好 处 ， 包 括 简化 汇编 语言 编码 和 算法 性 能 的 提升 。 下 一 章 中 ， 我 们 将 
分 析 很 多 不 同 的 示例 程序 来 消化 本 章 讲 的 内 容 。 





图 19-2 x86-AVX-64 寄存 器 组 
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本 章 将 介绍 如 何 使 用 x86-SSE 和 x86-AVX 的 计算 资源 来 编写 x86-64 的 汇编 语言 函数 。 
20.1 节 用 若干 示例 程序 演示 x86-SSE 指令 集 的 使 用 方法 ，20.2 节 演 示 x86-AVX 指令 集 的 使 
用 方法 。 本 章 示例 代码 中 使 用 的 x86-SSE 和 x86-AVX 指令 ， 大 部 分 都 已 在 前 一 章 中 讨论 过 。 
这 样 安排 可 以 让 我 们 的 讨论 更 集中 于 算法 和 64 位 处 理 方法 的 层面 ， 而 不 是 指令 执行 的 细 枝 
XH Lb. 


20.1 x86-SSE-64 编程 


在 第 9 章 和 第 10 章 ， 我 们 已 经 学 习 了 如 何 使 用 x86-SSE 指令 来 编写 处 理 组 合 浮 点 数 和 
整 型 数 的 函数 。 在 这 一 节 中 ,我 们 将 体验 如 何在 64 位 汇编 语言 函数 中 使 用 x86-SSE 资源 。 
第 一 个 示例 程序 是 以 64 位 方式 实现 的 直方 图 绘图 算法 ， 该 算法 在 第 10 章 已 经 学 习 过 。 接 下 
来 的 两 个 例子 演示 了 如 何 使 用 x86-SSE 指令 集 处 理 组 合 浮 点 数 。 本 节 的 示例 程序 着 重 于 介绍 
x86-64 执行 环境 中 新 增 计算 资源 的 应 用 。 


20.1.1 直方 图 绘制 


在 第 10 章 ， 我 们 已 经 看 到 了 如 何 利用 x86-SSE 指令 集 为 8 位 灰 度 图 像 构 建 直 方 图 。 本 
小 节 我 们 将 学 习 直 方 图 绘制 算法 的 64 位 实现 。 清 单 20-1 和 清单 20-2 分 别 列 出 了 示例 程序 
Sse64ImageHistogram 的 C++ 和 汇编 代码 。 


清单 20-1 Sse64ImageHistogram.cpp 


#include "stdafx.h" 
#include "Sse64ImageHistogram.h" 
#include <string.h> 
#include <malloc.h> 


extern "C" Uint32 NUM PIXELS MAX = 16777216; 


bool Sse64ImageHistogramCpp(Uint32* histo, const Uint8* pixel buff, Uint32— 
num pixels) 


// 确保 num pixels 的 值 是 有 效 的 

if ((num pixels == 0) || (num pixels > NUM PIXELS MAX)) 
return false; 

if (num pixels X 32 !- 0) 
return false; 


// 确保 histo 16 字 节 边界 对 齐 的 
if (((uintptr t)histo & Oxf) !- 0) 
return false; 


// 确保 pixel buff 是 16 字 节 边界 对 齐 的 
if (((uintptr t)pixel buff & oxf) != 0) 
return false; 
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// 构建 直方 图 
memset(histo, 0, 256 * sizeof(Uint32)); 


for (Uint32 i = 0; i < num pixels; i++) 
histo[pixel_buff[i] ]++; 


return true; 


} 


void Sse64ImageHistogram(void) 


{ 
const wchar t* image fn = L"..\\..\\..\\DataFiles\\TestImage1. bmp"; 


const char* csv fn = " TestImage1_Histograms.csv"; 


ImageBuffer ib(image fn); 

Uint32 num pixels - ib.GetNumPixels(); 

Uint8* pixel buff - (Uint8*)ib.GetPixelBuffer(); 

Uint32* histo1 = (Uint32*) aligned malloc(256 * sizeof(Uint32), 16); 
Uint32* histo2 - (Uint32*) aligned malloc(256 * sizeof(Uint32), 16); 
bool rc1, rc2; 

rci = Sse64ImageHistogramCpp(histo1, pixel buff, num pixels); 

rc2 = Sse64ImageHistogram (histo2, pixel buff, num pixels); 


printf("Results for Sse641ImageHistogram() Wn"); 
if (Irci || !rc2) 


printf(" Bad return code: rci-Xd, rc2-XdWn", rci, rc2); 
return; 


} 


FILE* fp; 
bool compare error = false; 


if (fopen s(&fp, csv fn, "wt") != 0) 
printf(" File open error: %s\n", csv fn); 
else 


( 


for (Uint32 i = 0; i « 256; i++) 


{ 
fprintf(fp, "Xu, Xu, %u\n", i, histoi[i], histo2[i]); 
if (histoi[i] !- histo2[i]) 
printf(" Histogram compare error at index %u\n", i); 


printf(" counts: [%u, %u]\n", histoi[i], histo2[i]); 
compare error - true; 


} 


if (!compare error) 
printf(" Histograms are identical\n"); 


fclose(fp); 


} 


int tmain(int argc, TCHAR* argv[]) 


{ 
try 


{ 





x86-64 PHA $ 4C IE LIAE 


Sse64ImageHistogram(); 
Sse64ImageHistogramTimed(); 


) 

catch (ocs) 
printf("Unexpected exception has occurred! n"); 
printf("File: Xs ( tmain) in", FILE ); 

} 

return 0; 


清单 20-2 Sse64lmageHistogram .asm 


include «MacrosX86-64.inc» 
.code 
extern NUM PIXELS MAX:dword 


; extern bool Sse64lImageHistogram (Uint32* histo, const Uint8* pixel buff,* 
Uint32 num pixels); 


; 描述 ， 下 面 的 函数 用 来 构建 一 个 直方 图 


; 返回 值 。 0 = 非法 参数 什 
$ 1 成 功 


; 需要 : x86-64、SSE4.1 支持 


Sse64lmageHistogram proc frame 
 CreateFrame Sse64Ih ,1024,0,rbx,rsi,rdi 
_EndProlog 


; 确保 num pixels 是 有 效 的 
test r8d,r8d 


jz Error ;如 果 num pixels 为 0 则 跳 转 

cmp r8d,[NUM PIXELS MAX] 

ja Error ;如 果 num pixels 太 大 则 跳 转 

test r8d,1fh 

jnz Error ;如 果 num pixels X 32 !- 0 则 跳 转 
; 确保 histo 和 pixel buff 已 进行 合适 的 内 存 对 齐 

mov rsi,rcx ;rsi = 指向 histo 

test rsi,0fh 

jnz Error ;如 果 histo 未 对 齐 则 跳 转 

mov r9,rdx 

test r9,0fh 

jnz Error ;如 果 pixel buff 未 对 齐 则 跳 转 


; 初始 化 本 地 直方 图 缓冲 区 ( 将 所 有 元 素 清 零 ) 


Xor rax,rax 


mov rdi,rsi ;rdi 指向 histo 
mov rcx,128 ;rcx 是 32 位 的 缓冲 长 度 
rep stosq ;histo 清 零 
mov rdi,rbp ;rdi 指向 histo2 
mov rcx,128 ;rcx 是 32 位 的 缓冲 长 度 
rep stosq ;hito2 清 零 

;在 处 理 循 环 之 前 进行 的 初始 化 
shr r8d,5 ;r8d 为 像素 块 的 个 数 
mov rdi,rbp ` ;rdi 指向 histo2 


; 构建 直方 图 
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align 16 

movdqa xmmo,[r9] 
movdqa xmm2,[r9416] 
movdqa xmm1,xmmo 
movdqa xmm3,xmm2 


; 处 理 像素 0 ~ 3 


pextrb rax,xmm0,0 
add dword ptr [rsi+rax*4],1 
pextrb rbx,xmm1,1 
add dword ptr [rdi+rbx*4],1 
pextrb rcx,xmmo,2 
add dword ptr [rsisrcx*4],1 
pextrb rdx,xmm1,3 
add dword ptr [rdi+rdx*4],1 


; 处 理 像素 4 ~ 7 


pextrb rax,xmmo,4 
add dword ptr [rsisrax*4],1 
pextrb rbx,xmm1, 5 
add dword ptr [rdi+rbx*4],1 
pextrb rcx,xmm0,6 
add dword ptr [rsi+rcx*4],1 
pextrb rdx,xmm1,7 
add dword ptr [rdi+rdx*4],1 


; 处 理 像 素 8 ~ 11 


pextrb rax,xmmo,8 
add dword ptr [rsi+rax*4],1 
pextrb rbx,xmm1,9 
add dword ptr [rdi+rbx*4],1 
pextrb rcx,xmmo,10 
add dword ptr [rsi+rcx*4],1 
pextrb rdx,xmmi,11 
add dword ptr [rdi+rdx*4],1 


; 处 理 像素 12 ~ 15 


pextrb rax,xmmo,12 
add dword ptr [rsitrax*4],1 
pextrb rbx,xmm1, 13 
add dword ptr [rdi+rbx*4],1 
pextrb rcx,xmmo,14 
add dword ptr [rsi+rcx*4],1 
pextrb rdx,xmmi,15 
add dword ptr [rdi«rdx*4],1 


; 处 理 像素 16 ~ 19 


pextrb rax,xmm2,0 
add dword ptr [rsisrax*4],1 
pextrb rbx,xmm3,1 
add dword ptr [rdi+rbx*4],1 
pextrb rcx,xmm2,2 
add dword ptr [rsi+rcx*4],1 
pextrb rdx,xmm3,3 
add dword ptr [rdi+rdx*4],1 


; 处 理 像素 20 ~ 23 


pextrb rax,xmm2,4 
add dword ptr [rsi+rax*4],1 
pextrb rbx,xmm3,5 
add dword ptr [rdi+rbx*4],1 
pextrb rcx,xmm2,6 


; 跳 转 目 标 地 址 对 齐 
;加 载 像素 块 
;加 载 像素 块 


;像素 0 计数 加 1 
;像素 1 计数 加 1 
;像素 2 计数 加 1 
;像素 3 计数 加 1 


;像素 4 计数 加 1 
;像素 5 计数 加 1 
;像素 6 计数 加 1 
;像素 7 计数 加 1 


;像素 8 计数 加 1 
;像素 9 计数 加 1 
;像素 10 计数 加 1 
;像素 11 计数 加 1 


;像素 12 计数 加 1 
;像素 13 计数 加 1 
;像素 14 计数 加 1 
;像素 15 计数 加 1 


;像素 16 计数 加 1 
;像素 17 计数 加 1 
;像素 18 计数 加 1 
;像素 19 计数 加 1 


;像素 20 计数 加 1 
;像素 21 计数 加 1 
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add dword ptr [rsi+rcx*4],1 
pextrb rdx,xmm3,7 
add dword ptr [rdit+rdx*4],1 


; 处 理 像素 24 ~ 27 

pextrb rax,xmm2,8 

add dword ptr [rsi+rax*4],1 
pextrb rbx,xmm3,9 

add dword ptr [rdi+rbx*4],1 
pextrb rcx,xmm2,10 

add dword ptr [rsi+rcx*4],1 
pextrb rdx,xmm3,11 

add dword ptr [rdi+rdx*4],1 


; 处 理 像素 28 ~ 31 
pextrb rax,xmm2,12 
add dword ptr [rsitrax*4],1 
pextrb rbx,xmm3,13 
add dword ptr [rdi+rbx*4],1 
pextrb rcx,xmm2,14 
add dword ptr [rsisrcx*4],1 
pextrb rdx,xmm3,15 
add dword ptr [rdi+rdx*4],1 


add r9,32 
sub r8d,1 
jnz GB 


> 将 临时 生成 的 直方 图 合并 成 最 终 的 直方 图 
mov ecx,32 
XOr rax,rax 


QQ: movdqa xmmo,xmmword ptr [rsi«rax] 
movdqa xmmi,xmmword ptr [rsi+rax+16] 
paddd xmmO,xmmword ptr [rdi+rax] 
paddd xmmi,xmmword ptr [rdi+rax+16] 
movdqa xmmword ptr [rsi«rax],xmmo 
movdqa xmmword ptr [rsi+rax+16],xmm1 


add rax,32 
sub ecx,1 
jnz 6B 

mov eax,1 


Done: _DeleteFrame rbx,rsi,rdi 
ret 


Error: xor eax,eax 
jmp Done 
Sse64ImageHistogram_ endp 
end 


示例 程序 Sse64ImageHistogram 的 C++ 源 代码 (清单 20-1) ) 和 我 们 在 第 10 章 看 到 的 代 
码 几 乎 完全 一 样 。 在 程序 的 开头 是 一 个 名 为 Sse64ImageHistogramCpp 的 函数 ， 该 函数 使 用 
一 个 简单 的 for 循环 构建 一 幅 图 像 的 直方 图 。 函 数 Sse64ImageHistogram 中 的 代码 首先 加 载 
一 幅 8 位 灰 度 的 测试 图 像 ， 然 后 调用 两 个 图 像 的 直方 图 处 理 函 数 ， 并 比较 它们 的 处 理 结果 以 
发 现任 何不 一 致 的 地 方 。 该 函数 还 会 将 直方 图 的 像素 计数 保存 在 一 个 CSV. 文件 中 ,方便 后 


续 的 处 理 或 使 用 表格 程序 绘图 。 


;像素 22 计数 加 1 
;像素 23 计数 加 1 


;像素 24 计数 加 1 
;像素 25 计数 加 1 
;像素 26 计数 加 1 
;像素 27 计数 加 1 


;像素 28 计数 加 1 

;像素 29 计数 加 1 

;像素 30 计数 加 1 

;像素 31 计数 加 1 

sro 指向 下 一 个 像素 块 

; 若 没 有 完成 则 继续 循环 

;ecx 为 迭代 次 数 

;rax 为 两 个 临时 直方 图 存储 区 的 公共 偏 移 量 
;加 载 histo 的 计数 
;加 上 histo2 中 的 计数 
;保存 最 终结 果 


;设置 成 功 返 回 码 


;设置 错误 返回 码 
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文件 Sse64ImageHistogram .asm (清单 20-2 ) 中 包含 一 个 名 为 Sse64ImageHistogram - 
的 函数 ， 此 函数 使 用 x86-64 指令 集 和 SSE4.1 来 构建 图 像 的 直方 图 。 和 第 10 章 中 的 直方 图 
示例 程序 类 似 ， 该 函数 会 建立 两 个 中 间 直 方 图 ， 然 后 将 它们 合并 成 一 个 最 终 的 直方 图 。 函 数 
Sse64ImageHistogram 在 代码 开始 处 使 用 宏 CreateFrame 创建 了 一 个 栈 帧 ， 包 含 一 个 1024 
字 节 的 本 地 存储 区 域 ， 该 存储 区 域 用 来 存放 其 中 一 个 中 间 直 方 图 。 函 数 调 用 者 提供 的 缓冲 区 
histo 用 来 存放 第 二 个 中 间 直 方 图 和 最 终 的 直方 图 。 在 宏 _EndProlog 被 调用 后 ， 对 函数 参数 
histo 和 pixel_bu 仔 进行 检查 ， 以 确保 它们 经 过 了 适当 的 内 存 对 齐 。 对 num pixels 也 进行 了 
检查 ， 以 确保 它 的 大 小 是 合适 的 。 两 个 中 间 直 方 图 存储 区 域 中 的 像素 计数 器 通过 stosq 指令 
被 初始 化 成 0。 

Sse64ImageHistogram 函数 中 的 主 循 环 和 与 其 对 应 的 32 位 程序 有 一 些小 的 差异 ， 主 
要 是 该 函数 使 用 了 更 多 的 通用 寄存 器 。 在 主 循环 一 开始 ， 就 使 用 两 个 movdqa 指令 往 寄存 
fit XMMO/XMMI 和 XMM2/XMMG 中 加 载 下 一 个 能 存放 32 个 像素 的 区 域 。 指 令 pextrb 
rax, xmm0, 0 从 XMMO 中 提取 像素 0， 然后 把 它 复制 到 寄存 器 RAX P (RAX 中 的 高 位 被 
设 成 0 )。 指 令 add dword ptr[rsi + rax*4], 1 在 第 一 个 中 间 直 方 图 中 将 相应 的 像素 计数 器 
数值 更 新 。 接 下 来 的 两 条 指令 pextrb rbx, xmm1,1 和 add dword ptr [rdi+rbx*4], 1 以 同样 
的 方式 使 用 第 二 个 中 间 直 方 图 处 理 了 像素 1。 这 种 像素 处 理 方法 在 这 个 循环 中 一 直 被 重复 
使 用 。 

在 主 循环 结束 以 后 ， 两 个 中 间 直 方 图 中 的 像素 计数 值 被 加 在 一 起 以 创建 最 终 的 直方 图 。 
_DeleteFrame 宏 用 来 释放 本 地 栈 空间 并 恢复 之 前 保存 的 非 易 变 通用 寄存 器 。 输 出 20-1 显示 
了 示例 程序 Sse64ImageHistogram 的 执行 结果 。 


输出 20-1 示例 程序 Sse64ImageHistogram 
Results for Sse64ImageHistogram() 
Histograms are identical 


Benchmark times saved to file _ Sse64ImageHistogramTimed.csv 


K 20-1 包含 了 Sse64ImageHistogram 程序 的 一 些 计 时 测量 结果 。 该 表 中 的 测量 结果 和 
X 10-1 中 的 测量 结果 本 质 上 是 一 样 的 ， 只 不 过 表 10-1 显示 的 是 32 位 版 本 直方 图 生成 算法 
的 测试 结果 。 由 于 构建 直方 图 的 算法 受 限 于 其 访问 的 内 容 ， 且 一 条 add 指令 只 能 更 新 每 个 中 
间 直 方 图 中 的 一 个 像素 计数 器 ， 所 以 这 样 的 结果 是 在 预料 中 的 。 


表 20-1 示例 程序 Sse64lmageHistogram 中 的 直方 图 函数 处 理 
TestImage1.bmp 的 平均 执行 时 间 (单位 : 微 秒 ) 


CPU C++ x86-SSE-64 
Intel Core i7-4770 300 234 
Intel Core i7-4600U 354 278 
Intel Core i3-2310M 679 485 
20.1.2 图像 转换 


为 了 实现 特定 的 图 像 处 理 算法 ， 有 时 候 要 将 一 个 8 位 灰 度 图 像 的 像素 从 整 型 数 转换 成 单 
精度 浮 点 数 ， 或 者 逆向 转换 。 本 节 中 的 示例 程序 就 演示 了 如 何 利用 x86-SSE 指令 集 来 完成 这 
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FER TIE. TÉ 20-3 和 清单 20-4 分 别 给 出 了 示例 程序 Sse64ImageConvert 的 C++ 和 汇编 语 
言 源 代码 。 


清单 20-3 Sse64lmageConvert.cpp 


#include "stdafx.h" 
#include "MiscDefs.h" 
#include «malloc.h» 
#include <stdlib.h> 


extern "C" Uint32 NUM PIXELS MAX = 16777216; 

extern "C" bool ImageUint8ToFloat (float* des, const Uint8* src, Uint32~ 
num pixels); 

extern "C" bool ImageFloatToUint8 (Uint8* des, const float* src, Uint32~ 
num pixels); 


bool ImageUnit8ToFloatCpp(float* des, const Uint8* src, Uint32 num pixels) 
{ 
// 确保 num_pixels 的 值 是 有 效 的 
if ((num pixels == 0) || (num pixels > NUM PIXELS MAX)) 
return false; 
if (num pixels % 32 != 0) 
return false; 


// 确保 src M des 是 16 字 节 边界 对 齐 的 

if (((uintptr t)src & Oxf) != 0) 
return false; 

if (((uintptr t)des & oxf) != 0) 
return false; . 


// 转换 图 像 
for (Uint32 i = 0; i « num pixels; i++) 
des[i] = src[i] / 255.0f; 


return true; 


) 


bool ImageFloatToUint8Cpp(Uint8* des, const float* src, Uint32 num pixels) 
{ 
// 确保 num_pixels 的 值 是 有 效 的 
if ((num pixels == 0) || (num pixels > NUM PIXELS MAX)) 
return false; 
if (num pixels % 32 !- O) 
return false; 


// 确保 src 和 des 是 16 字 节 边界 对 齐 的 

if (((uintptr t)src & Oxf) != 0) 
return false; 

if (((uintptr t)des & Oxf) !- 0) 
return false; 


for (Uint32 i = 0; i « num pixels; i++) 


{ 
if (src[i] > 1.0f) 
des[i] = 255; 
else if (src[i] < 0.0) 
des[i] = 0; 
else 
des[i] = (Uint8)(src[i] * 255.0f); 
} 


return true; 
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} 


Uint32 ImageCompareFloat(const float* srci, const float* src2, Uint32~ 
num pixels) 


Uint32 num diff - 0; 
for (Uint32 i = 0; i « num pixels; i++) 
{ 
if (srci[i] != src2[i]) 
num diffe; 
} 


return num_diff; 


} 


Uint32 ImageCompareUint8(const Uint8* srci, const Uint8* src2, Uint32— 
num pixels) 


Uint32 num diff - 0; 
for (Uint32 i = 0; i « num pixels; i++) 


// 由 于 浮 点 运算 存在 一 些小 的 偏差 ， 像 素 值 允许 差 1 
if (abs((int)srci[i] - (int)src2[i]) > 1) 
num diffe; 
} 


return num diff; 


) 


void ImageUint8ToFloat(void) 

{ 
const Uint32 num_pixels = 1024; 
Uint8* src = (Uint8*) aligned malloc(num pixels * sizeof(Uint8), 16); 
float* desi - (float*) aligned malloc(num pixels * sizeof(float), 16); 
float* des2 - (float*) aligned malloc(num pixels * sizeof(float), 16); 


srand(12); 


for (Uint32 i - 0; i < num pixels; i++) 
src[i] = (Uint8)(rand() % 256); 


bool rc1 
bool rc2 


ImageUnit8ToFloatCpp(des1, src, num pixels); 
ImageUint8ToFloat (des2, src, num pixels); 


nou 


if (!rca || !rc2) 


printf("Invalid return code - [%d, %d]\n", rci, rc2); 
return; 


) 


Uint32 num diff = ImageCompareFloat(desi, des2, num pixels); 
printf("\nResults for ImageUint8ToFloat\n"); 
printf(" num diff = %u\n", num diff); 


aligned free(src); 
.aligned free(des1); 
aligned free(des2); 


) 


void ImageFloatToUint8(void) 
{ 


const Uint32 num_pixels = 1024; 
float* src = (float*) aligned_malloc(num_pixels * sizeof(float), 16); 
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int 


Uint8* desi = (Uint8*) aligned malloc(num pixels * sizeof(Uint8), 16); 
Uint8* des2 - (Uint8*) aligned malloc(num pixels * sizeof(Uint8), 16); 


// 初始 化 像素 缓冲 区 src。 出 于 测试 的 目的 ，src 中 的 前 几 个 元 素 被 设 成 已 知 的 值 


src[0] = 0.125f; src[8] = 0.01f; 

src[i1] = 0.75f; src[9] = 0.99f; 

src[2] = -4.0f; src[10] = 1.1f; 

src[3] = 3.0f; src[11] = -1.1f; 

src[4] = 0.0f; src[12] - 0.99999f; 

src[5] = 1.0f; src[13] = 0.5f; 

src[6] = -0.01f; src[14] = -0.0; 

src[7] = +1.01f; src[15] = .333333f; 573 
srand(20); 


for (Uint32 i = 16; i « num pixels; i++) 
src[i] - (float)rand() / RAND MAX; 


bool rci = ImageFloatToUint8Cpp(desi1, src, num pixels); 
bool rc2 - ImageFloatToUint8 (des2, src, num pixels); 


if (!rci || !rc2) 


printf("Invalid return code - [%d, %d]\n", rci, rc2); 
return; 


) 


Uint32 num diff = ImageCompareUint8(des1, des2, num pixels); 
printf("\nResults for ImageFloatToUint8 n"); 
printf(" num diff = %u\n", num diff); 


aligned free(src); 
aligned free(des1); 
aligned free(des2); 


_tmain(int argc, _TCHAR* argv[]) 
ImageUint8ToFloat(); 


ImageFloatToUint8(); 
return 0; 





清单 20-4 Sse64lmageConvert .asm 


include «MacrosX86-64.inc» 
extern NUM PIXELS MAX:dword 


.const 


;所 有 的 值 都 必须 以 16 字 节 边界 对 齐 

Uint8ToFloat real4 255.0, 255.0, 255.0, 255.0 
FloatToUint8Min real4 0.0, 0.0, 0.0, 0.0 
FloatToUint8Max real4 1.0, 1.0, 1.0, 1.0 
FloatToUint8Scale real4 255.0, 255.0, 255.0, 255.0 


.code 


; extern "C" bool ImageUint8ToFloat (float* des, const Uint8* src, Uint32~ 
num pixels); 


; 描述 : 下 面 的 函数 将 Uint8 像素 缓冲 区 中 的 值 转换 成 归 一 化 的 [0.0，1.0]SPFP 


; 需要 x86-64 和 SSE2 的 支持 574 
ImageUint8ToFloat proc frame 
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_CreateFrame U2F ,0,64 


 SaveXmmRegs xmm10,xmm11,xmm12,xmm13 


 EndProlog 





; 确保 num pixels 的 值 是 有 效 的 且 像 素 缓冲 区 边界 对 齐 


test r8d,r8d 

jz Error 

cmp r8d,[NUM PIXELS MAX] 
ja Error 

test r8d,1fh 

jnz Error 

test rcx,0fh 

jnz Error 

test rdx,Ofh 

jnz Error 


; 初始 化 循环 处 理 所 用 的 寄存 器 
shr r8d,5 


movaps xmm4,xmmword ptr [Uint8ToFloat] ;xmm4 


pxor xmm5,xmm5 
align 16 


; 加 载 下 一 个 存放 32 个 像素 的 区 域 
@@: movdqa xmmO,xmmword ptr [rdx] 
movdqa xmmi0,xmmword ptr [rdx«16] 


; 若 num pixels 为 0 则 跳 转 


ES num pixels 太 大 则 跳 转 


i num pixels X 32 != 0 则 跳 转 

; 若 des 没有 对 齐 则 跳 转 

34 src 没有 对 齐 则 跳 转 
;计算 像素 区 域 的 数量 


255.0f (组 合 值 ) 
0 (组 合 值 ) 


3Xmm5 


;xmmO 指向 像素 区 域 
;xmm10 指向 像素 区 域 


; 将 xmm0 中 的 像素 值 由 无 符号 8 位 扩展 为 无 符号 32 位 


movdqa xmm2,xmmO 
punpcklbw xmmo,xmm5 
punpckhbw xmm2,xmm5 
movdqa xmm1,xmmo 
movdqa xmm3,xmm2 
punpcklwd xmmo,xmm5 
punpckhwd xmmi,xmm5 
punpcklwd xmm2,xmm5 
punpckhwd xmm3,xmm5 


;xmm2 和 xmmO 都 存放 了 8 个 16 位 像素 值 


;xmm3:xmmO 都 存放 了 16 个 32 位 像素 值 


> 将 xmm10 中 的 像素 值 由 无 符号 8 位 扩展 为 无 符号 32 位 


movdqa xmm12,xmm10 
punpcklbw xmm10,xmm5 
punpckhbw xmm12,xmm5 
movdqa xmm11,xmm10 
movdqa xmm13,xmm12 
punpcklwd xmm10,xmm5 
punpckhwd xmm11,xmm5 
punpcklwd xmmi2,xmm5 
punpckhwd xmm13,xmm5 


; 将 像素 值 由 32 位 整 型 转换 成 SPFP 
cvtdq2ps xmmo,xmmo 
cvtdq2ps xmmi,xmmi 
cvtdq2ps xmm2,xmm2 
cvtdq2ps xmm3,xmm3 
cvtdq2ps xmm10,xmmi10 
cvtdq2ps xmm11,xmm11 
cvtdq2ps xmm12,xmmi2 
cvtdq2ps xmm13,xmm13 


; 将 所 有 像素 值 归 一 化 为 [0.0，1.0] 并 保存 结果 
divps xmmO,xmm4 
movaps xmmword ptr [rcx],xmmo 
divps xmm1,xmm4 


;xmm12 和 xmm10 都 存放 了 8 个 16 位 像素 值 


;xmm13:xmm10 都 存放 了 16 个 32 位 像素 值 


;xmm3 :xmm0 都 存放 了 16 SPFP 像素 值 


;Xmm13:xmm10 都 存放 了 16 个 SPFP 像素 值 


;保存 像素 0 ~ 3 
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movaps xmmword ptr [rcx«16],xmmi 
divps xmm2,xmm4 
movaps xmmword ptr [rcx432],xmm2 
divps xmm3,xmm4 
movaps xmmword ptr [rcx448],xmm3 


divps xmm10,xmm4 
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;保存 像素 4 ~ 7 
;保存 像素 8 ~ 11 
;保存 像素 12 ~ 15 


movaps xmmword ptr [rcx+64],xmm10 ;保存 像素 16 ~ 19 
divps xmm11,xmm4 
movaps xmmword ptr [rcx+80],xmm1i1 ;保存 像素 20 ~ 23 
divps xmm12,xmm4 
movaps xmmword ptr [rcx«96],xmm12 ;保存 像素 24 ~ 27 
divps xmm13,xmm4 
movaps xmmword ptr [rcx+112],xmm13 ;保存 像素 28 ~ 31 
add rdx,32 ;更 新 src 指针 
add rcx,128 ;更 新 des 指针 
sub r8d,1 
jnz @B ;一 直 循 环 直到 完成 
mov eax,1 ;设置 成 功 返 回 码 
Done: _RestoreXmmRegs xmm10,xmm11,xmm12,xmm13 
_DeleteFrame 
ret 
Error: xor eax,eax ;设置 错误 返回 码 


jmp done 
ImageUint8ToFloat endp 


; extern "C" bool ImageFloatToUint8 (Uint8* des, const float* src, Uint32~ 


num pixels); 


3 


; 描述 : 下 面 的 函数 将 归 一 化 的 [0.0，1.0]SPFP 像素 缓冲 区 转换 成 Uint8 型 


3 

; 需要 : — x86-64 和 SSE4.1 的 支持 

ImageFloatToUint8 proc frame 
_CreateFrame F2U_,0,32 
_SaveXmmRegs xmm6 , xmm7 
_EndProlog 


; 确保 num pixels 的 值 合法 且 像 素 缓冲 区 是 边界 对 齐 的 


test r8d,r8d 

jz Error 

cmp r8d,[NUM PIXELS MAX] 
ja Error 

test r8d,1fh 

jnz Error 

test rcx,ofh 

jnz Error 

test rdx,Ofh 

jnz Error 


; 将 所 需 的 组 合 常量 加 载 到 寄存 器 中 


movaps xmm5,xmmword ptr [FloatToUint8Scale] ;xmm5 
movaps xmm6,xmmword ptr [FloatToUint8Min] 
movaps xmm7,xmmword ptr [FloatToUint8Max] 


shr r8d,4 
LP1: mov r9d,4 


; 若 num pixels 为 0 则 跳 转 

; 若 num pixels 的 值 太 大 则 跳 转 
i num pixels X 32 != 0 则 跳 转 
; 若 没 有 对 齐 则 跳 转 

VÉ src 没有 对 齐 则 跳 转 

255.0 (组 合 值 ) 


0.0 (组 合 值 ) 
1.0 (组 合 值 ) 


;xmm6 
>xmm7 


;像素 区 域 的 个 数 
;每 个 像素 区 域 中 的 4 位 字 节 像素 个 数 
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; 将 16 个 浮 点 像素 值 转换 成 Uint8 型 


LP2: 


movaps xmmO,xmmword ptr [rdx] 
movaps xmm1,xmmO 
cmpltps xmm1, xmm6 
andnps xmm1, xmmO 
movaps xmmO, xmm1 


cmpnleps xmm1,xmm7 
movaps xmm2,xmm1 
andps xmmi,xmm7 
andnps xmm2,xmmo 
orps xmm2,xmmi 
mulps xmm2,xmm5 


cvtps2dq xmm1,xmm2 
packusdw xmm1, xmm1 
packuswb xmmi,xmmi 


; 保存 当前 8 位 像素 值 中 的 4 位 字 节 


pextrd eax,xmm1,0 
psrldq xmm3,4 
pinsrd xmm3,eax,3 





;xmm0 指向 4 位 字 节 缓冲 区 


;像素 值 与 0.0 比较 
;将 值 小 于 0.0 的 像素 设 为 0.0 
;保存 结果 


;像素 值 与 1.0 比较 


;将 值 大 于 1.0 的 像素 裁剪 为 1.0 

;xmm2 为 值 小 于 等 于 1.0 的 像素 个 数 

;xmm2 为 最 终 裁剪 过 的 像素 个 数 

;xmm2 为 位 于 区 间 [0.0，255.0] 内 的 浮 点 像素 个 数 


;xmm1 为 位 于 区 间 [0，255] 内 的 32 位 像素 个 数 
;xmm1[63:0] 用 于 存放 16 位 像素 值 
;xmm1[31:0] 用 于 存放 8 位 像素 值 


;eax 指向 新 的 4 位 字 节 像素 值 
;针对 新 的 4 位 字 节 对 xmm3 进行 调整 
;xmm3[127:96] 用 于 保存 新 的 4 位 字 节 


add rdx,16 ;更 新 src 指针 
sub r9d,1 
jnz LP2 ;循环 直至 结束 
; 保存 当前 的 像素 区 域 ( 16 个 像素 值 ) 
movdqa xmmword ptr [rcx],xmm3 ;保存 当前 像素 区 域 
add rcx,16 ;更 新 des 指针 
sub r8d,1 
jnz LP1 ;循环 直至 结束 
mov eax,1 ;设置 成 功 返 回 码 
Done: _RestoreXmmRegs xmm6,xmm7 
_DeleteFrame 
ret 
Error: mov eax,eax ;设置 错误 返回 码 


jmp Done 


ImageFloatToUint8  endp 


end 


在 文件 Sse64ImageConvert.cpp (清单 20-3 ) 的 开始 ， 有 一 个 名 叫 ImageUint8ToFloat-Cpp 


的 函数 。 该 函数 将 存储 区 域 src 中 的 所 有 像素 从 Uint8[0, 255] 转换 成 单 精度 浮 点 数 [0.0, 1.0]。 
这 个 函数 中 有 一 个 简单 的 循环 用 来 对 src 中 的 每 一 个 像素 进行 计算 : des[i] = src[i] / 255 (i 为 
像素 )。 接 下 来 的 函数 ImageFloatToUint8Cpp 进行 反 向 操作 。 值 得 注意 的 是 ， 这 个 函数 会 将 
所 有 值 大 于 1.0 和 小 于 0.0 的 浮 点 像素 都 进行 裁剪 。 接 下 来 的 两 个 函数 ImageCompareFloat 和 
ImageCompareUint8 用 来 在 转换 操作 之 后 比较 两 个 单 精度 浮 点 数 或 Uint3 像素 缓冲 区 是 否 相 等 。 
注意 后 一 个 函数 ImageCompareUint8 允许 Uint8 像素 值 出 现 一 次 误差 ， 这 种 误差 是 由 C++ 和 汇 
编 语 言 像素 转换 函数 之 间 进 行 浮 点 运算 的 微小 偏差 而 产生 的 〈 还 记得 吗 ? 在 第 3 章 中 我 们 曾经 
解释 过 ， 浮 点 运算 并 不 总 是 满足 结合 律 )。 

PK% ImageUint8ToFloat 建立 了 一 个 测试 用 例 ， 检 验 C++ 和 汇编 语言 版 本 从 Uint8 到 
浮 点 数 的 转换 函数 。ImageFloatToUint8 是 一 个 与 之 类 似 的 函数 ， 用 来 测试 对 应 的 浮 点 数 到 
Uint8 的 转换 函数 。 值 得 一 提 的 是 ， 为 了 测试 上 述 像素 裁剪 的 需求 ， 该 函数 将 sre 像素 缓冲 
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区 中 的 前 几 个 值 设 成 了 已 知 的 值 。 在 每 一 个 测试 用 例 的 转换 操作 过 程 中 ， 被 检测 到 的 像素 的 
数量 都 会 被 显示 出 来 。 

汇编 语言 版 本 的 转换 函数 ImageUnit8ToFloat_ 列 在 清单 20-4 中 。 主 处 理 循 环 的 每 次 迭 
代 会 将 32 个 像素 从 Uint8 转换 成 单 精 度 浮 点 数 。 这 里 的 像素 转换 方法 一 开始 就 使 用 一 系列 
的 x86-SSE 非 组 合 指令 ( punpcklbw, punpckhbw, punpcklwd 和 punpckhwd) 将 无 符号 单字 
节 像 素 值 转换 成 双 字 节 值 ， 接 下 来 双 字 节 的 值 又 被 cvtdq2ps 指令 转换 成 单 精度 浮 点 数 。 最 
后 得 到 的 浮 点 数值 被 归 一 化 到 [0.0, 1.0] 并 保存 在 目的 缓冲 区 中 。 

清单 20-4 中 还 包含 了 函数 ImageFloatToUint8_ 的 汇编 代码 。 这 个 转换 函数 的 内 部 循环 
使 用 ps 和 cmpnleps 指令 以 及 一 些 布尔 逻辑 来 裁剪 不 在 [0.0, 1. 区 间 中 的 所 有 浮 点 像 
素 值 。 图 20-1 中 显示 了 这 种 方法 。 被 裁剪 过 的 浮 点 像素 值 最 后 被 指令 cvtps2dq, packusdw 
m" se ae ne 转换 成 无 符号 的 单字 节 数 。 最 后 使 用 指令 pextrd、psrldq 和 pinsrd 将 得 到 的 单 

节 数 保存 到 了 XMM3[127:96] 中 。 这 一 过 程 会 再 重复 三 次 ， 完 成 后 XMM3 将 包含 16 个 经 
TERNER, 这 一 组 像素 将 会 由 movdqa 指令 保存 到 目的 缓冲 区 中 。 输 出 20-2 显示 了 示 
例 程序 Sse64ImageConvert 的 执行 结果 


andps xmm1, xmm7 


andnps xmm2, xmm0 





orps xmm2, xmml 






mulps xmm2, xmm5 





图 20-1 函数 ImageFloatToUint8_ 中 使 用 的 浮 点 像素 裁剪 方法 的 图 示 


输出 20-2 示例 程序 Sse64ImageConvert 


Results for ImageUint8ToFloat 
num diff - 0 
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Results for ImageFloatToUint8 
num_diff = 0 





20.1.3 向量 数组 

x86-SSE 和 x86-AVX 指令 集 经 常 被 用 来 优化 某 些 对 大 向 量 数组 执行 运算 的 算法 。 本 人 小 
节 中 的 示例 程序 名 叫 Sse64VectorArrays， 它 演示 了 如 何 对 存放 在 一 个 数组 中 的 向 量 计算 向 
量 积 。 同 时 该 程序 还 列举 了 两 种 不 同 的 数据 存储 方法 以 及 它们 在 性 能 上 的 实际 差异 。 清 单 
20-5、 清 单 20-6 和 清单 20-7 中 列 出 了 示例 程序 Sse64VectorArrays 的 源 代 码 。 


清单 20-5 Sse64VectorArrays.h 





// 简化 的 向 量 数据 结构 
typedef struct 


float X; // 向 量 的 X 分 量 

float Y; // 向 量 的 Y 分 量 

float Z; // 向 量 的 Z 分 量 

float Pad; // 将 数据 结构 补 齐 到 16 字 节 
) Vector; 


// 使 用 数组 的 向 量 数据 结构 
typedef struct 


float* X; // x 分 量 指针 
float* Y; // Y 分 量 指针 
float* Z; // z 分 量 指针 


) VectorSoA; 


清单 20-6 Sse64VectorArrays.cpp 


#include "stdafx.h" 
#include "Sse64VectorArrays.h" 
#include «stdlib.h» 


void Sse64VectorCrossProd(void) 


{ 
const Uint32 num_vectors = 8; 
const size t vsize1 = num vectors * sizeof(Vector) ; 
const size t vsize2 - num vectors * sizeof(float); 
Vector* a1 = (Vector*) aligned malloc(vsizei, 16); 


Vector* bi = (Vector*) aligned malloc(vsizei, 16); 
Vector* c1 = (Vector*) aligned malloc(vsizei, 16); 
VectorSoA a2, b2, c2; 


a2.X - (float*) aligned malloc(vsize2, 16); 
a2.Y - (float*) aligned malloc(vsize2, 16); 
a2.Z = (float*) aligned malloc(vsize2, 16); 
b2.X - (float*) aligned malloc(vsize2, 16); 
b2.Y - (float*) aligned malloc(vsize2, 16); 
b2.Z = (float*) aligned malloc(vsize2, 16); 
c2.X = (float*) aligned malloc(vsize2, 16); 
c2.Y - (float*) aligned malloc(vsize2, 16); 
c2.Z = (float*) aligned malloc(vsize2, 16); 
srand(103); 


for (Uint32 i - 0; i « num vectors; i++) 


X86-64 PIGS 3 RHE AE 
{ 
float a_x = (float)(rand() % 100); 
float a_y = (float)(rand() % 100); 
float a z = (float)(rand() % 100); 
float b x = (float)(rand() % 100); 
float b y = (float)(rand() % 100); 
float b z = (float)(rand() % 100); 
ai{i].X = a2.X[i] = a x; 
十 [于 = a2.Y[i] = a y; 
ai[i].Z = a2.Z[i] = az; 
bi[i].X = b2.X[i] = b x; 
ba[i].¥ = b2.¥[i] = by; 
bi[i].Z = b2.Z[i] = b z; 
ai[i].Pad = bi[i].Pad = 0; 


} 


Sse64VectorCrossProdi (ci, a1, bi, num vectors); 
Sse64VectorCrossProd2 (&c2, &a2, &b2, num vectors); 


bool error - false; 
printf("Results for Sse64VectorCrossProd() Wn"); 


for (Uint32 i = 0; i « num vectors && lerror; i++) 


( 


const char* fs = "[%8.1f %8.1f %8.1f]\n"; 


printf( 


"Vector cross 
printf(" al/a2: 
printf(fs, a1[i] 


printf(" b1/b2: 
printf(fs, bi[i]. 
printf(" c1: 
printf(fs, cili]: 
printf(" c2: 


printf(fs, c2. Xil c2.Y[i], c2.Z[i]); 


printf("\n"); 


product %d\n", i); 


X, aty, a1[1].2); 


X, ba[i].Y, b1[i].2); 


i, ay cili].2) 


bool error x = ci[i].X != c2.X[i]; 
bool error y = ci[i].Y != c2.Y[i]; 
bool error z = ci[i].Z != c2.Z[i]; 


if (error x || error y || error z) 


) 


printf("Compare error at index %d\n", i); 
printf(" Xd, Xd, %d\n", error x, error y, error z); 


error - true; 


) 


int tmain(int argc, 


{ 


aligned free(a1); 

aligned free(a2.X); 
aligned free(b2.X); 
aligned free(c2.X); 


aligned free(b1); 
aligned free(a2.Y); 


aligned free(b2.Y); 
aligned free(c2.Y); 
_TCHAR* argv[]) 


Sse64VectorCrossProd(); 
Sse64VectorCrossProdTimed(); 


aligned free(c1); 

aligned free(a2.2); 
aligned free(b2.2); 
aligned free(c2.2); 
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清单 20-7 Sse64VectorArrays_.asm 


include <MacrosX86-64.inc> 
.Code 


; 下 面 的 数据 结构 必须 与 Sse64VectorArray.h 中 定义 的 VectorSoA 结构 一 样 
VectorSoA struct 


X 
Y 
Z 


qword ? ;向 量 的 X 分 量 指针 
qword ? ;向 量 的 Y 分 量 指针 
qword ? ;向 量 的 Z 分 量 指针 


VectorSoA ends 
; extern "C" bool Sse64VectorCrossProdi (Vector* c, const Vector* a, conste 
Vector* b, Uint32 num vectors); 


; 描述 : 下 面 的 函数 用 于 计算 两 个 3D 向 量 的 向 量 积 


Sse64VectorCrossProdi proc frame 


_CreateFrame Vcp1 ,0, 32, r12, r13 


 SaveXmmRegs xmm6, xmm7 
_EndProlog 


; 进行 参数 检查 


test r9d,r9d 
jz Error 
test r9d,3 
jnz Error 


test rcx,0fh 
jnz Error 
test rdx,ofh 
jnz Error 
test r8,0fh 
jnz Error 
XOr rax,rax 


align 16 


; 从 a 和 b 中 加 载 下 面 两 个 向 量 


@@: 


movaps xmmo, [rdx4rax] 
movaps xmm1,[r8+rax] 
movaps xmm2,xmmo 

movaps xmm3,xmmi 

movaps xmm4, [rdx+rax+16 ] 
movaps xmm5, [r8+rax+16] 
movaps xmm6,xmm4 

movaps xmm7, xmm5 


; 计算 向 量 积 并 保存 结果 (# 表示 可 以 忽略 ) 


shufps xmmo,xmmo,11001001b 
shufps xmm1,xmm1,11010010b 
mulps xmmo,xmmi 

shufps xmm2,xmm2,11010010b 
shufps xmm3,xmm3,11001001b 
mulps xmm2,xmm3 

subps xmmO,xmm2 

movaps [rcx«rax],xmmo 


shufps xmm4,xmm4,11001001b 
shufps xmm5,xmm5,11010010b 
mulps xmm4,xmm5 
shufps xmm6,xmm6,11010010b 
shufps xmm7,xmm7,11001001b 
mulps xmm6,xmm7 


34% num vectors == 0 则 跳 转 


iX num vectors X 4 !- 0 则 跳 转 


; 若 a 未 对 齐 则 跳 转 
; 若 b 未 对 齐 则 跳 转 


; 若 c 未 对 齐 则 跳 转 . 
;rax 为 两 个 数组 的 公共 偏 移 量 


;a[i] 
;b[i] 


;a[i+1] 
;b[i+1] 


ay | ax | az 
bz | by 


` 
x 

3 

N 

! 

+ H 
c 

x 
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subps xmm4,xmm6 ;xmm4 = # | cz | cy | cx 
movaps [rcx+rax+16] ,xmm4 ;保存 c[i] 
add rax,32 ;更 新 数组 偏 移 
sub r9d,2 
jnz @B ;循环 直至 结束 
mov eax,1 ;设置 成 功 返 回 码 
Done: _RestoreXmmRegs xmm6,xmm7 
_DeleteFrame r12, r13 
ret 
Error: xor eax,eax ;设置 错误 返回 码 
jmp Done 


Sse64VectorCrossProdi endp 


; extern "C" bool Sse64VectorCrossProd2 (VectorSoA* c, const VectorSoA* a,~ 
const VectorSoA* b, Uint32 num vectors); 


, 
; 描述 : 下 面 的 函数 用 于 计算 两 个 VectorSoA 型 向 量 的 向 量 积 
Sse64VectorCrossProd2 proc frame 
_CreateFrame Vcp2 ,0,32,:bx,rsi,rdi,r12,r13,114,r115 
 SaveXmmRegs xmm6,xmm7 
_EndProlog 


; 确保 num_vectors 的 值 合 法 
test r9d,r9d 


jz Error inum vectors == 0 则 跳 转 

- test r9d,3 
jnz Error 34 num vectors X 4 !- 0 则 跳 转 
shr r9d,2 


; 初始 化 向 量 分 量 数组 指针 


XOr raX,rax ;用 于 检测 未 对 齐 的 指针 
mov rbx, [rcx+VectorSoA.X] ;rbx 为 指向 c.X 的 指针 
or rax,rbx 

mov rsi, [rcx«VectorSoA.Y] ;rsi 为 指向 c.Y 的 指针 
or rax,rsi 

mov rdi, [rcx+VectorSoA.Z] ;rdi 为 指向 c.Z 的 指针 
or rax,rdi 

mov r10,[rdx«VectorSoA.X] ;r10 为 指向 a.X 的 指针 
Or rax,r10 

mov r11,[rdx«VectorSoA.Y] ;r11 为 指向 a. Y 的 指针 
or rax,r11 

mov x12, [rdx«VectorSoA.Z] ;r12 为 指向 a.Z 的 指针 
or rax,r12 

mov r13,[r8+VectorSoA.X] ;r13 为 指向 b.X 的 指针 
or rax,r13 

mov r14, [r8*VectorSoA.Y] ;r14 为 指向 b. Y 的 指针 
Or rax,r14 

mov r15, [r8*VectorSoA.Z] ;r15 为 指向 b.C 的 指针 
or rax,ri5 

and rax,0fh ;指针 是 否 未 对 齐 ? 

jnz Error ;若是 ， 则 跳 转 

xor rax,rax ;rax 为 两 个 数组 的 公共 偏 移 量 


align 16 


.划一 -~ 


; 加 载 接 下 来 的 四 个 向 量 

@@: movaps xmmO,xmmword ptr [riO«rax]  ;xmmO 指向 a.X 分 量 
movaps xmm1,xmmword ptr [r11+rax] ;xmm1 指向 a.Y 分 量 
movaps xmm2,xmmword ptr [r12+rax] ;xmm2 指向 a.Z 分 量 
movaps xmm6, xmm1 
movaps xmm7,xmm2 
movaps xmm3,xmmword ptr [r13+rax] ”;xmm3 指向 b.X 分 量 
movaps xmm4,xmmword ptr [ri44rax] ;xmm4 指向 b.Y 分 量 
movaps xmm5,xmmword ptr [r15+rax] ;xmm5 指向 b.z 分 量 


; 计算 四 个 向 量 的 向 量 积 

; c.X[i] = a.Y[i] * b.z[i] = a.Z[i] * b.Y[i] 
; c. Y[i] = a.z[i] * b.X[i] = a.X[i] * b.z[i] 
3 c.Z[i] = a.X[i] * b.Y[i] = a.Y[i] * b.x[i] 


mulps xmm6,xmm5 ;xmm6 = a.Y * b.Z 
mulps xmm],xmm4 ;xmm7 = a.Z * b.Y 
subps xmm6,xmm7 ;xmm6 指向 c. X 分 量 
mulps xmm2,xmm3 ;xmm2 - a.Z * b.X 
mulps xmm5,xmmo ;xmm5 - a.X * b.Z 
subps xmm2,xmm5 ;xmm2 指向 c. Y 分 量 
mulps xmmo,xmm4 ;xmmO = a.X * b.Y 
mulps xmmi,xmm3 ;xmmi - a.Y * b.X 
subps xmmo,xmm1i ;xmm0 指向 c .Zz 分量 
movaps [rdi+rax],xmmO ;保存 c.Z 
movaps [rsi+rax],xmm2 ;保存 c.Y 
movaps [rbx+rax],xmm6 ;保存 c.X 
add rax,16 ;更 新 数组 偏 移 量 
sub r9d,1 
jnz @B ;循环 直至 结束 
mov eax,1 ;设置 成 功 返 回 码 
Done: _RestoreXmmRegs xmm6,xmm7 
 DeleteFrame rbx,rsi,rdi,r12,r13,r14,r15 
ret 
Error: xor eax,eax ;设置 错误 返回 码 
jmp Done 
Sse64VectorCrossProd2 endp 
end 





两 个 三 维 向 量 a 和 5b 的 向 量 积 是 一 个 向 量 c, c 与 a 和 4b 都 成 正 交 关系 。 向 量 c 的 x、y 

和 z 分 量 可 以 使 用 下 列 公 式 计算 : 
C, = ayb: — a.b, Cy = abx- a,b. c:= a,b, — a,b, 

示例 程序 Sse64VectorArrays 使 用 两 种 不 同 的 存储 方法 来 管理 向 量 数组 。 第 一 种 方法 使 用 
了 元 素 类 型 为 Vector 的 结构 体 数组 ( AOS)， 该 结构 体 的 声明 在 C++ 头 文件 Sse64VectorArrays. 
h (清单 20-5) 中 。 这 个 结构 体 包含 了 向 量 分 量 X、Y 和 ZZ 的 声明 。 结 构 体 Vector 还 包括 一 个 
Pad 元 素 ， 使 整个 结构 体 的 大 小 凑 足 到 16 字 节 。 第 二 种 数据 存储 方法 使 用 了 三 个 独立 的 浮 点 
数组 来 维护 向 量 分 量 的 值 。C++ 头 文件 Sse64VectorArrays.h 中 声明 了 一 个 VectorSoA 结构 体 ， 
该 结构 体 实 现 了 第 二 种 数据 存储 方式 ， 即 数组 结构 体 (SOA)。 示 例 程序 Sse64VectorArrays 包 
含 了 进行 向 量 积 运 算 的 汇编 语言 也 数 ， 为 了 说 明 AOS 和 SOA 两 种 数据 存储 方法 在 指令 层面 和 


性 能 层面 的 不 同 ， 程 序 分 别 使 用 这 两 种 方法 进行 了 运算 。 


清单 20-6 中 列 出 了 示例 程序 Sse64VectorArrays 的 C++ WAIS. PA Sse64VectorCross- 
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Prod 的 功能 是 分 配 和 初始 化 所 需 的 向 量 数据 存储 空间 。 同 时 它 还 调用 了 两 个 不 同 的 汇编 语言 
数 ， 分 别 使 用 AOS(Sse64VectorCrossProdl ) 和 SOA(Sse64VectorCrossProd2_) 方式 来 计算 向 量 积 。 

汇编 源 文件 Sse64VectorArrays_.asm (清单 20-7 ) 包含 了 两 个 向 量 积 计 算 函 数 。 第 一 个 
函数 名 为 Sse64VectorCrossProdl ,使 用 元 素 为 结构 体 Vector 的 数组 来 计算 向 量 积 。 在 这 个 
函数 的 主 循环 里 ， 向 量 a[ 订 、b[ 订 、a[i+1] 和 b[i+1] 被 分 别 加 载 到 寄存 器 XMMO ~ XMM7 中 ， 
然后 使 用 一 系列 的 shufps, mulps 和 subps 指令 来 计算 向 量 积 c[i] = a[i] x bli]. KI 20-2 详细 
显示 了 这 种 方法 。 同 样 的 指令 序列 被 用 来 计算 向 量 积 ci + 1] = ai+ 1] x b[i + 1]。 注 意 ,， HE 
行 向 量 计算 的 各 种 指令 会 忽略 每 个 XMM 寄存 器 中 的 高 位 浮 点 部 分 (127:96 位 )， 这 意味 着 
处 理 器 的 SIMD 资源 并 没有 被 完全 利用 。 


向 量 a(xmm0, xmm2) 和 b (xmm1, xmm3) 
Z Y X 











shufps xmm0, xmm0, 11001001b 


shufps xmm3, xmm3, 11001001b 





mulaps xmm2, xmm3 





# 表示 可 以 名 略 
图 20-2 ”函数 Sse64VectorCrossProd1_ 中 使 用 的 向 量 积 计 算 方法 


第 二 个 向 量 积 函 数 Sse64VectorCrossProd2_ 使 用 VectorSoA 的 结构 体 实例 来 计算 其 结果 。 
在 这 个 例子 里 ， 采 用 SOA 来 组 织 向 量 分 量 的 数据 ， 这 种 方式 避免 了 需要 进行 数据 重组 的 麻烦 。 
此 外 ， 该 函数 还 可 通过 并 行 计算 4 个 向 量 积 来 加 快 计 算 速 度 。 在 函数 Sse64vectorCrossProd2_ 
中 ， 主 循环 一 开始 就 为 每 一 个 XMM 寄存 器 加 载 4 个 X、Y 或 Z 分 量 。 接 下 来 就 是 使 用 6 
个 mulps 和 3 个 subps 指令 来 计算 4 个 向 量 积 ， 如 图 20-3 所 示 。 最 终 的 结果 存放 在 名 为 c 的 
VectorSoA 结构 缓冲 区 中 。 | 

输出 20-3 显示 了 示例 程序 Sse64VectorArrays 的 执行 结果 。 表 20-2 Jil Hi T PRÉ Sse64- 
VectorCrossProdl 和 Sse64VectorCrossProd2_ 计算 向 量 积 的 时 间 。 对 此 示例 程序 而 言 ， SOA 
方法 比 AOS 方法 要 快 得 多 。 
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xmm0 = a.X, xmm] =a.Y,xmm2=a.Z xmm3 - b.X, xmm4 = b.Y, xmm5 = b.Z 


mulps xmm6, xmm5 


mulps xmm7, xmm4 


subps xmm6, xmm7  ;xmm6 = c.X 分 量 (4 个 向 量 ) 


mulps xmm2, xmm3 





mulps xmm5, xmm0 





xmm2 = cY 分 量 (4 个 向 量 ) 









subps xmm2, xmm5 







mulps xmm0, xmm4 


mulps xmm1, xmm3 








suis xmm0, xmml ;xmm0- a Vana OL 


图 20-3 函数 Sse64VectorCrossProd2 中 使 用 的 的 向 量 积 计算 方法 


输出 20-3 示例 程序 Sse64VectorArrays 


Results for Sse64VectorCrossProd() 






Vector cross product O 


a1/a2: [ 74.0 93.0 
b1/b2: [ 58.0 80.0 
cis [ -38.0 -196.0 
c2: [ -38.0 -196.0 


Vector cross product 1 


a1/a2: [ 68.0 88.0 
b1/b2: [ 53.0 87.0 
ci; [ 2560.0 -2092.0 
c2: [ 2560.0 -2092.0 


Vector cross product 2 


a1/a2: [ 55.0 16.0 
b1/b2: [ 72.0 86.0 
ci; [ -5396.0 2895.0 
cz: [ -5396.0 2895.0 


Vector cross product 3 


a1/a2: [ 21.0 89.0 
bi/b2: [ 95.0 86.0 
cl: [ -904.0 2081.0 
C2 [ -904.0 2081.0 


Vector cross product 4 


al/a2: [ 36.0 65.0 
bi/b2: [ 68.0 92.0 


40.0] 
34.0] 
526.0] 
526.0] 


8.0] 
37.0] 
1252.0] 
1252.0] 


70.0] 
39.0] 
3578.0] 
3578.0] 


25.0] 
14.0] 
-6649.0] 
-6649.0] 


5.0] 
20.0] 


# 20% 
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cls [ 840.0 -380.0 -1108.0] 
c2 [ 840.0 -380.0 -1108.0] 


Vector cross product 5 


a1/a2: [ 31.0 86.0 13.0] 

b1/b2: [ 47.0 97.0 94.0] 

c1: [ 6823.0 -2303.0 -1035.0] 

c2: [ 6823.0 -2303.0 -1035.0] 
Vector cross product 6 

a1/a2: [ 78.0 58.0 43.0] 

b1/b2: [ 47.0 48.0 42.0] 

eti [ 372.0 -1255.0 1018.0] 

c2: [ 372.0 -1255.0 1018.0] 
Vector cross product 7 

a1/a2: [ 23.0 64. 86.0] 


ei: [ 932.0 -773. 326.0] 


0 
b1/b2: [ 10.0 42.0 71.0] 
0 

C2: [ 932.0 -773.0 326.0] 


表 20-2 示例 程序 Sse64VectorArrays (num vectors = 50 000 ) 
中 的 向 量 积 计算 函数 的 平均 执行 时 间 (单位 : 微 秒 ) 


CPU Sse64VectorCrossProd1 (SOA) Sse64VectorCrossProd2 (AOS) 
Intel Core 17-4770 67 50 
Intel Core i7-4600U 106 74 
Intel Core i3-2310M 165 126 


20.2 x86-AVX-64 编程 


本 节 的 示例 代码 将 演示 如 何在 64 位 汇编 语言 函数 中 使 用 x86-AVX 计算 资源 ， 包 括 标量 
浮 点 、 组 合 整 型 和 组 合 浮 点 指令 。 同 时 还 将 演示 C++ 库 函 数 和 其 他 一 些 宏 处 理 技术 的 运用 。 


20.2.1 椭圆 体 计算 


本 小 节 中 我 们 将 学 习 一 个 利用 x86-AVX 中 的 标量 浮 点 功能 来 计算 椭圆 体 体积 和 表面 积 
的 示例 程序 。 同 时 该 程序 还 演示 了 使 用 x86-AVX 指令 的 64 位 函数 如 何 调用 C++ 库 函 数 。 
清单 20-8 和 清单 20-9 分 别 列 出 了 示例 程序 Avx64CalcEllipsoid 的 C++ 和 汇编 语言 源 代码 。 


清单 20-8 Avx64CalcEllipsoid 


#include "stdafx.h" 
#define USE MATH DEFINES 
itinclude «math.h» 


extern "C" bool Avx64CalcEllipsoid (const double* a, const double* b, const ~ 
double* c, int n, double p, double* sa, double* vol); 

bool Avx64CalcEllipsoidCpp(const double* a, const double* b, const double*= 
c, int n, double p, double* sa, double* vol) 


if (n <= 0) 
return false; 


for (int i = 0; i < n; ie) 


double a p = pow(a[i], p); 
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int 


double b p = pow(b[i], p); 
double c p = pow(c[i], p); 


double tempi = (ap*bp+ap*cp+bp*cp) / 3; 


sa[i] = 4 * M PI * pow(tempi, 1.0 / p); 
vol[r] e 4 * M Pr'** afi] * b[i] *c[i] 7 3; 
} 


return true; 


_tmain(int argc, _TCHAR* argv[]) 


const int n = 8; 

const double p = 1.6075; 

const double a[n] = { 1, 2, 6, 3, 4, 5, 5, 2}; 
const double b[n] = { 1, 2, 1, 7, 2, 6, 5, 7}3 
const double c[n] = { 1, 2, 7, 4, 3, 11, 5, 9); 
double sai[n], voli[n]; 

double sa2[n], vol2[n]; 


Avx64CalcEllipsoidCpp(a, b, c, n, p, sai, voli); 
Avx64CalcEllipsoid (a, b, c, n, p, sa2, vol2); 


printf("Results for Avx64CalcEllipsoid\n\n") ; 


for (int i = 0; i < n; i++) 


{ 
printf("\na, b, c: %6.21f %6.21f %6.21f\n", a[i], b[i], c[i]); 
printf(" sai, voli: %14.81f %14.81f\n", sa1[i], voli[i]); 
printf(" sa2, vol2: %14.81f %14.81f\n", sa2[i], vol2[i]); 

) 

return 0; 


清单 20-9 Avx64CalcEllipsoid_.asm 


include «MacrosX86-64.inc» 
extern pow:proc 


.const 


r8 1p0  real8 1.0 
r8 3p0  real8 3.0 
r8 4p0  real8 4.0 
r8 pi real8 3.14159265358979323846 


.code 


; extern "C" bool Avx64CalcEllipsoid (const double* a, const double* b,« 
const double* c, int n, double p, double* sa, double* vol); 


; 描述 ， 下面 的 函数 用 于 计算 椭圆 体 的 表面 积 和 体积 


; 需要 : x86-64 和 AVX 支持 


Avx64CalcEllipsoid proc frame 


> 进 


_CreateFrame Ce ,0,144,rbx,rsi,rdi,r12,r13,r14,r15 
_SaveXmmRegs xmm6,xmm7,xmm8,xmm9,xmm10,xmm12,xmm13,xmm14,xmm15 
_EndProlog 


行 必要 的 寄存 器 初始 化 。 注 意 这 个 函数 使 用 了 非 易 变 寄存 器 ， 因 为 它 需要 调用 pow( ) 函数 
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test r9d,r9d 
jle Error 
mov r12,rcx 
mov r13,rdx 
mov r14,r8 
mov ri5d,r9d 


vmovsd xmm12,real8 ptr [rbp+Ce_OffsetStackArgs ] 


vmovsd xmm0,real8 ptr [r8 1po] 
vdivsd xmm13,xmmO, xmm12 
vmovsd xmm1,real8 ptr [r8 4po] 
vmulsd xmm14,xmmi,[r8 pi] 
vmovsd xmmi5,[r8 3po] 


mov rsi,[rbp+Ce_OffsetStackArgs+8 ] 
mov rdi,[rbp+Ce_OffsetStackArgs+16] 
xor rbx,rbx 

sub rsp, 32 


@@: vmovsd xmm6,real8 ptr [r12+rbx] 
vmovsd xmm7,real8 ptr [113+rbx] 
vmovsd xmm8,real8 ptr [ri4«rbx] 


; 计算 椭圆 体 的 体积 
vmulsd xmmo,xmm14,xmm6 
vmulsd xmmi,xmm;7,xmm8 
vmulsd xmmo,xmmo,xmm1i 
vdivsd xmmo,xmmo, xmm15 
vmovsd real8 ptr [rdi+rbx],xmmo 


; 计算 椭圆 体 的 表面 积 
vmovsd xmmO, xmmO, xmm6 
vmovsd xmm1,xmm1,xmm12 
call pow 
vmovsd xmm9,xmm9,xmmO 


vmovsd xmmO, xmmo , xmm7 
vmovsd xmm1,xmm1, xmm12 
call pow 

vmovsd xmm10,xmm10, xmmO 


vmovsd xmmO, xmmO, xmm8 
vmovsd xmm1, xmm1, xmm12 
call pow 


vmulsd xmm1,xmm9, xmm10 
vmulsd xmm2,xmm9, xmmO 
vmulsd xmm3,xmm10,xmmO 


vaddsd xmmo, xmm1, xmm2 

vaddsd xmmo,xmmo, xmm3 

vdivsd xmmo,xmmO,xmm15 

vmovsd xmm1, xmm1,xmm13 

call pow 

vmulsd xmmO,xmmO, xmm14 

vmovsd real8 ptr [rsi+rbx],xmmo 


; 更 新 计数 器 和 偏 移 量 ， 若 未 完成 则 继续 循环 
add rbx,8 
sub r15,1 
jnz GB 
mov eax,1 
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;n <= 0? 

;如 果 则 是 跳 转 

;r12 为 指向 a 的 指针 
;r13 为 指向 b 的 指针 
;r14 为 指向 c 的 指针 


3r15 zn 
;xmm12 = p 
;xmm3-1/p 


;xmm14 = 4 * pi 
;xmm15 = 3 


;rsi 为 指向 sa 的 指针 

;rdi 为 指向 vol 的 指针 

;rbx 为 两 个 数组 的 公共 偏 移 量 
;为 pow() 分 配 内 存 空 间 


L 


;xmm6 = a 
;xmm7 - b 
;xmm8 - c 


;Xmm0 = 4 * pi * a 

;xm = b * c; 
;mmo-4*pi*a*b*c 
3xmm0 = 4 * pi*a*b*c / 3 


;保存 椭圆 体 的 体积 
;xmmo = a 
;xmmi = p 
;xmm9 - pow(a,p) 
;xmmo = b 
;xmm1 = p 


jxmm10 = pow(b,p) 


;xmmo = c 
;xmmi = p 
;xmm0 = pow(c,p) 


;xmmi = pow(a,p) * pow(b,p) 
;xmm2 = pow(a,p) * pow(c,p) 
;xmm3 = pow(b,p) * pow(c,p) 


;xmm0 用 来 保存 括号 中 子 表 达 式 的 值 (subexpr) 
;xmm1 = 1 / p 

;xmmo = pow(subexpr,1/p) 

;xmm0 用 于 保存 最 终 得 到 的 表面 积 

;保存 表面 积 


;设置 成 功 返回 码 
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Done: _RestoreXmmRegs xmm6, xmm7 , xmm8, xmm9 , xmm1O, xmm12 , xmm13 , xmm14 , xmm15 
_DeleteFrame rbx,rsi,rdi,r12,r13,r114,r15 
ret 


Error: xor eax,eax ;设置 错误 返回 码 
jmp done 

Avx64CalcEllipsoid endp 
end 


椭圆 体 是 一 个 三 维 立体 图 形 ， 其 横 截 面 是 一 个 椭圆 形 。 椭 圆 体 的 大 小 由 它 的 三 个 半 
HH (a, b flc) 的 长 度 决定 ， 使 用 这 三 个 半 轴 的 长 度 计 算 椭 圆 体 体积 是 很 容易 的 。 然 而 ， 
精确 计算 椭圆 体 的 表面 积 却 需要 进行 多 个 步骤 的 椭圆 积分 。 幸 运 的 是 ， 在 很 多 应 用 场合 
下 ， 人 们 可 以 使 用 科 努 效 ' vedo ur (参见 附录 C) 来 计算 椭圆 体 的 表面 积 。 下 面 是 程序 
Avx64CalcEllipsoid 使 用 的 计算 椭圆 体 表 面积 的 公 取 


V - 3 nabc sazaa preoer re] p ~ 1.6075 


程序 Avx64CalcEllipsoid (清单 20-8 ) 的 C++ 源 文件 包含 两 个 简单 的 函数 。 第 一 个 函数 
名 为 Avx64CalcEllipsoidCpp, ， 用 来 计算 不 同 椭圆 体 的 体积 和 表面 积 ， 椭 圆 体 的 三 个 半 轴 的 
长 度 由 数组 a、b 和 ec 给 出 。 另 一 个 函数 tmain 包含 了 为 C++ PREX Avx64CalcEllipsoidCpp 
和 汇编 语言 函数 Avx64CalcEllipsoid 初始 化 测试 用 例 的 代码 。 

清单 20-9 列 出 了 汇编 语言 函数 Avx64CalcEllipsoid 的 源 代码 。 在 函数 序言 结束 之 后 ， 
ZU a. b. cil n 的 值 被 分 别 复制 到 寄存 器 R12 ~ RIS 中 。 使 用 这 些 寄存 器 是 因为 它们 的 
值 会 被 用 来 给 C++ JE PR pow 传递 参数 。 接 下 来 的 指令 块 将 所 需 的 双 精 度 浮 点 常数 的 值 放 
入 寄存 器 XMM12 ~ XMMIS 中 。 随 后 是 其 他 一 些 初始 化 动作 ， 包 括 初 始 化 指针 寄存 器 以 指 
向 保存 计算 结果 的 数组 以 及 为 函数 pow 分 配 栈 空间 。 

程序 的 主 循环 首先 将 半 轴 的 长 度 值 a[i]、b[i] 和 c[i] 分 别 加 载 到 寄存 器 XMM6 ~ XMM8 
中 ， 然 后 使 用 vmulsd 和 vdivsd 指令 来 计算 椭圆 体 的 体积 。 接 下 来 就 是 使 用 前 面 定义 的 通 
近 公 式 来 计算 椭圆 体 的 表面 积 。 值 得 注意 的 是 ， 在 调用 pow 函数 之 前 ， 程 序 将 所 需 的 参 
数值 复制 到 了 寄存 器 XMMO 和 XMMI 中 。 另 外 还 要 注意 ， 在 下 一 次 调用 pow 函数 之 前 ， 
Avx64CalcEllispoid 会 将 pow 天 数 的 返回 值 保 存在 一 个 非 易 变 寄 存 器 中 。 输 出 20-4 显示 了 
示例 程序 Avx64CalcEllipsoid 的 执行 结果 。 


输出 20-4 ”示例 程序 Avx64CalcEllipsoid 
Results for Avx64CalcE11ipsoid 


a, b, c: 1.00 1.00 1.00 
Sa1, voli: 12.56637061 4.18879020 
sa2, vol2: 12.56637061 4.18879020 


a, b, es 2.00 2.00 2.00 
sa1, voli: 50.26548246 33.51032164 
Sa2, vol2: 50.26548246 33.51032164 


a, b, c: 6.00 1.00 7.00 
sa1, voli: 282.73569300  175.92918860 
sa2, vol2:  282.73569300 175.92918860 


a, b, c: 3.00 7.00 4.00 
sal, voli: 263.60352668 351.85837720 
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sa2, vol2: 263.60352668 351.85837720 


a, b, c: 4.00 2.00 3.00 
sai, voli:  111.60403108 . 100.53096491 
sa2, vol2: 111.60403108 100.53096491 


a, b, c: 5.00 6.00 11.00 
sai, voli:  649.98183211 1382.30076758 
sa2, vol2:  649.98183211 1382.30076758 


a, b, c: 5.00 5.00 5.00 
sai, voli: 314.15926536 | 523.59877560 
sa2, vol2:  314.15926536 523.59877560 


a, b, c: 2.00 7.00 9.00 
sal, voli: 452.93733288 527.78756580 
sa2, vol2: 452.93733288 527.78756580 


20.2.2 RGB 图 像 处 理 


接 下 来 的 示例 程序 名 为 Avx64CalcRgbMinMax， 演 示 如 何 计 算 一 幅 RGB 图 像 的 红 、 
绿 、 蓝 三 种 像素 值 中 的 最 大 值 和 最 小 值 。 同 时 ， 该 程序 还 演示 了 更 多 的 宏 处 理 技术 。Avx64- 
CalcRgbMinMax 的 C++ 和 汇编 语言 源 代 码 分 别 如 清单 20-10 和 清单 20-11 所 示 。 


清单 20-10 Avx64CalcRgbMinMax.cpp 


#include "stdafx.h" 
#include "MiscDefs.h" 
#include <stdlib.h> 
#include <malloc.h> 


extern "C" bool Avx64CalcRgbMinMax_(Uint8* rgb[3], Uint32 num pixels, Uint8= 
min vals[3], Uint8 max vals[3]); 


bool Avx64CalcRgbMinMaxCpp(Uint8* rgb[3], Uint32 num pixels, Uint8e 
min vals[3], Uint8 max vals[3]) 
{ 
// 确保 num pixels 的 值 有 效 
if ((num pixels == 0) || (num pixels % 32 !- 0)) 
return false; 


// 确保 调 色 板 存储 区 域 边界 对 齐 
for (Uint32 i = 0; i < 3; i++) 


if (((uintptr t)rgb[i] & ox1f) !- 0) 
return false; 


) 


// 寻找 每 一 个 调 色 板 的 最 大 值 和 最 小 值 
for (Uint32 i = 0; i < 3; i++) 


( 


min vals[i] - 255; max vals[i] - 0; 
for (Uint32 j = 0; j « num pixels; j++) 


if (rgb[i][j] < min vals[i]) 
min vals[i] = rgb[i][j]; 

else if (rgb[i][j] » max vals[i]) 
max vals[i] = rgb[i][j]; 
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return true; 


int _tmain(int argc, _TCHAR* argv[]) 


const Uint32 n = 1024; 
Uint8* rgb[3]; 


rgb[0] = (Uint8*) aligned malloc(n * sizeof(Uint8), 32); 
rgb[1] = (Uint8*) aligned malloc(n * sizeof(Uint8), 32); 
rgb[2] = (Uint8*) aligned malloc(n * sizeof(Uint8), 32); 
for (Uint32 i = 0; i« n; i++) 
{ 

rgb[o][i] = 5 + rand() X 245; 

rgb[1][i] = 5 + rand() X 245; 

rgb[2][i] = 5 + rand() X 245; 


// 将 min 和 max 的 值 设 为 已 知 的 值 (出 于 测试 的 目的 ) 
rgb[o][n / 4] =4; rgb[1][n / 2] = 1; rgb[2][3 * n / 4] = 3; 
rgb[o][n / 3] = 254; rgb[1][2 * n / 5] = 251; rgb[2][n - 1] = 252; 


Uint8 min_valsi[3], max valsi[3]; 
Uint8 min vals2[3], max vals2[3]; 


Avx64CalcRgbMinMaxCpp(rgb, n, min valsi, max valsi); 
Avx64CalcRgbMinMax (rgb, n, min vals2, max vals2); 


printf("Results for Avx64CalcRgbMinMax Wn Wn") ; 

printf(" R G BW"); 

printf("---------------------- Yn")s 

printf("min valsi: %3d 93d %3d\n", min valsi[0], min valsi[1], ~ 
min valsi[2]); 

printf("min vals2: %3d %3d %3d\n", min vals2[0], min vals2[1],~ 
min vals2[2]); 

printf("\n"); 

printf("max valsi: %3d %3d %3d\n", max valsi[0], max_valsi[1],~ 
max_valsi[2]); 

printf("max vals2: %3d %3d %3d\n", max vals2[0], max_vals2[1],~ 
max_vals2[2]); 


_aligned_free(rgb[0]); 
aligned free(rgb[1]); 
aligned free(rgb[2]); 
return 0; 


清单 20-11 Avx64CalcRgbMinMax_.asm 


include <MacrosX86-64.inc> 


; 256 位 常量 
ConstVals segment readonly align(32) 
InitialPminVal db 32 dup(offh) 
InitialPmaxVal db 32 dup(ooh) 
ConstVals ends 

.code 


; X YmmVpextrMinub 
3 


; 描述 : 下 面 的 宏 定义 生成 代码 ， 用 于 从 寄存 器 Ymmsrc 中 提取 无 符号 8 位 数值 的 最 小 值 
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 YmmVpextrMinub macro GprDes, YmmSrc, YmmTmp 


; 确保 YmmSrc 和 YmmTmp 不 是 相同 的 寄存 器 
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.erridni «YmmSrc», «YmmTmp», «Invalid registers» 


; 为 相应 的 XMM 寄存 器 生成 字符 串 
YmmSrcSuffix SUBSTR «YmmSrc»,2 
XmmSrc CATSTR «X»,YmmSrcSuffix 
YmmTmpSuffix SUBSTR «YmmTmp»,2 
XmmTmp CATSTR «X», YmmTmpSuffix 


; 将 Ymmsrc 中 的 32 字 节 值 减少 到 最 小 值 
vextracti128 XmmTmp,YmmSrc,1 
vpminub XmmSrc,XmmSrc,XmmTmp 


vpsrldq XmmTmp,XmmSrc,8 
vpminub XmmSrc,XmmSrc,XmmTmp 


vpsrldq XmmTmp,XmmSrc,4 
vpminub XmmSrc,XmmSrc,XmmTmp 


vpsrldq XmmTmp,XmmSrc,2 
vpminub XmmSrc,XmmSrc,XmmTmp 


vpsrldq XmmTmp,XmmSrc,1 
vpminub XmmSrc,XmmSrc,XmmTmp 


vpextrb GprDes,XmmSrc,0 
endm 


; & YmmVpextrMaxub 
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;XmmSrc 用 于 保存 最 后 16 个 最 小 值 
;XmmSrc 用 于 保存 最 后 8 个 最 小 值 


;XmmSrc 用 于 保存 最 后 4 个 最 小 值 


.XmmSrc 用 于 保存 最 后 2 个 最 小 值 


, 


;XmmSrc 用 于 保存 最 后 1 个 最 小 值 
;将 最 终 的 最 小 值 保存 到 Gpr 中 


; 描述 ， 下面 的 宏 定义 生成 代码 ， 用 于 从 寄存 器 YnmSrc 中 提取 无 符号 8 位 数值 的 


A 最 大 值 


_YmmVpextrMaxub macro GprDes, YmmSrc , YmmTmp 


; 确保 YmmSrc 和 YmmTmp 不 是 相同 的 寄存 器 


.erridni «YmmSrc», «YmmTmp», «Invalid registers» 


; 为 相应 的 XMM 寄存 器 生成 字符 串 
YmmSrcSuffix SUBSTR <YmmSrc>,2 
XmmSrc CATSTR «X»,YmmSrcSuffix 


YmmTmpSuffix SUBSTR «YmmTmp»,2 
XmmTmp CATSTR «X», YmmTmpSuffix 


; 将 Ymmsrc 中 的 32 字 节 值 减少 到 最 大 值 
vextracti128 XmmTmp, YmmSrc,1 
vpmaxub XmmSrc,XmmSrc,XmmTmp 


vpsrldq XmmTmp,XmmSrc,8 
vpmaxub XmmSrc,XmmSrc,XmmTmp 


vpsrldq XmmTmp,XmmSrc,4 
vpmaxub XmmSrc,XmmSrc,XmmTmp 
vpsrldq XmmTmp,XmmSrc,2 
vpmaxub XmmSrc,XmmSrc,XmmTmp 


vpsrldq XmmTmp,XmmSrc, 1 
vpmaxub XmmSrc,XmmSrc,XmmTmp 


;XmmSrc 用 于 保存 最 后 16 个 最 大 值 


;Xmmsrc 用 于 保存 最 后 8 个 最 大 值 


;XmmSrc 用 于 保存 最 后 4 个 最 大 值 598 


;XmmSrc 用 于 保存 最 后 2 个 最 大 值 


;XmmSrc 用 于 保存 最 后 1 个 最 大 值 
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vpextrb GprDes,XmmSrc,O 
endm 





;将 最 终 的 最 大 值 保存 到 Gpr 中 


; extern "C" bool Avx64CalcRgbMinMax (Uint8* rgb[3], Uint32 num pixels, = 
Uint8 min vals[3], Uint8 max vals[3]); 


; 描述 ;下面 的 函数 用 于 确定 每 个 颜色 数组 中 的 最 大 和 最 小 像素 值 


; 需要 x86-64 和 AVX2 支持 


Avx64CalcRgbMinMax_ proc frame 


_CreateFrame CalcMinMax_,0,48,112 
_SaveXmmRegs xmm6, xmm7 ,xmm8 
_EndProlog 


; 确保 num pixels 和 颜色 数组 是 有 效 的 


test edx,edx 
jz Error 

test edx,01fh 
jnz Error 


xor rax,rax 
mov r10, [rcx] 

or rax,r10 

mov r11,[rcx«8] 
or rax,rii 

mov r12, [rcx«16] 
Or rax,r12 

test rax, 1fh 
jnz Error 


; 初始 化 循环 用 到 的 寄存 器 


shr edx,5 
XOL ICX,ICX 


vmovdga ymm3,ymmword ptr [InitialPminVal] 


vmovdqa ymm4,ymm3 
vmovdqa ymm5,ymm3 


vmovdqa ymm6,ymmword ptr [InitialPmaxVal] 


vmovdqa ymm7, ymm6 
vmovdqa ymm8 , ymm6 


; FE RGB 颜色 数组 中 寻找 最 大 值 和 最 小 值 
aa: 


vmovdqa ymmo,ymmword ptr [r10+rcx] 
vmovdqa ymmi,ymmword ptr [r11+rcx] 
vmovdqa ymm2,ymmword ptr [r12+rcx] 


vpminub ymm3,ymm3,ymmO 
vpminub ymm4,ymm4,ymm1 
vpminub ymm5,ymm5 , ymm2 


vpmaxub ymm6, ymmé6 , ymmo 
vpmaxub ymm7, ymm7, ymm1 
vpmaxub ymm8, ymm8 , ymm2 


add rcx,32 
sub edx,1 
jnz GB 


; 计算 最 终 的 RGB 最 小 值 


. YmmVpextrMinub rax,ymm3,ymmo 


3% num pixels == 0 则 跳 转 


iX; num pixels X 32 !- 0， 则 跳 转 


3710 指向 R 
3711 指向 G 


3712 指向 B 


;车 R、G 或 B 未 对 齐 则 跳 转 


;edx 为 像素 区 域 的 个 数 
;rcx 为 两 个 数组 的 公共 偏 移 量 


;ymm3 为 R 中 的 最 小 值 
;ymm4 为 G 中 的 最 小 值 
;ymm5 为 B 中 的 最 小 值 
;ymm6 AR 中 的 最 大 值 
;ymm7 为 G 中 的 最 大 值 
;ymm8 AB 中 的 最 大 值 


;ymm0 为 R 中 的 像素 个 数 
;ymm1 为 G 中 的 像素 个 数 
;ymm2 为 B 中 的 像素 个 数 


;更 新 R 中 的 最 小 值 
;更 新 G 中 的 最 小 值 
;更 新 B 中 的 最 小 值 


;更 新 R 中 的 最 大 值 
;更 新 6G 中 的 最 大 值 
;更 新 B 中 的 最 大 值 
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mov byte ptr [r8],al ;保存 R 中 的 最 小 值 
_YmmVpextrMinub rax,ymm4, ymmo 
mov byte ptr [r8+1],al ;保存 6 中 的 最 小 值 
 YmmVpextrMinub Tax,ymm5,ymmO 
mov byte ptr [r8+2],al ;保存 B 中 的 最 小 值 


; 计算 最 终 的 RGB RA 
 YmmVpextrMaxub rax,ymm6, ymm1 
mov byte ptr [r9],al ;保存 R 中 的 最 大 值 
_YmmVpextrMaxub rax,ymm7,ymm1 
mov byte ptr [r9+1],al ;保存 6 中 的 最 大 值 
 YmmVpextrMaxub rax,ymm8, ymm1 


mov byte ptr [r9+2],al ;保存 B 中 的 最 大 值 
mov eax,1 ;设置 成 功 返 回 码 


vzeroupper 


Done: X RestoreXmmRegs xmm6,xmm7,xmm8 
_DeleteFrame r12 
ret 


Error: xor eax,eax ;设置 错误 返回 码 
jmp Done 

Avx64CalcRgbMinMax_ endp 
end 


C++ 文件 Avx64CalcRgbMinMax.cpp (清单 20-10) 的 开头 是 一 个 名 为 Avx64CalcRgb- 
MinMaxCpp 的 函数 。 这 个 函数 包含 一 个 简单 的 for 循环 ， 它 确定 输入 的 颜色 数组 中 的 RGB 最 
大 值 和 最 小 值 。 这 个 C++ 文件 还 包含 _tmain 也 数 ， 它 用 来 初始 化 测试 用 的 颜色 数组 。 同 时 这 
个 函数 还 调用 了 C++ 和 汇编 语言 版 本 的 RGB 最 大 最 小 值 计算 琐 数 并 显示 输出 结果 。 

清单 20-11 列 出 了 汇编 语言 文件 Avx64CalcRgbMinMax .asm 的 源 代 码 。 代 码 段 
ConstVals 的 声明 之 后 是 两 个 宏 定 义 :_YmmVpextrMinub 和 _YmmVpextrMaxub。 这 两 个 宏 
所 生成 的 代码 用 于 从 一 个 YMM 寄存 器 中 提取 最 大 和 最 小 的 无 符号 字 节 值 。 两 个 宏 的 源 代 
码 声明 是 一 样 的 ， 除 了 对 vpminub 或 vpmaxub 指令 的 使 用 之 外 。 下 面 我 们 来 详细 解释 一 下 
_YmmVpextrMinub 这 个 宏 定义 的 声明 和 逻辑 。 

Z YmmVpextrMinub 需要 三 个 参数 : 一 个 通用 目的 寄存 器 ( GprDes), 一 个 YMM Ji 
寄存 器 (YmmSrc)， 一 个 YMM 临时 寄存 器 (YmmTmp)。 注 意 YmmSrc 和 YmmTmp 必须 
是 不 同 的 寄存 器 。 如 果 它 们 相同 ， 那 么 .erridni 指示 符 (在 不 区 分 大 小 写 的 情况 下 ， 如 果 两 
个 符号 字面 上 相同 ， 就 会 报错 ) 就 会 在 代码 编译 时 报告 一 个 错误 。 

为 了 能 够 生成 正确 的 汇编 语言 代码 ， 宏 YmmVpextrMinub 需要 一 个 包含 XMM 寄存 器 名 
字 的 字符 串 (XmmSrc)， 这 个 字符 串 与 所 指定 的 YmmSre 寄存 器 的 低位 相对 应 。 举 例 来 说 ， 如 
Ak YmmSre j “ YMM0”, 那么 宏 定义 的 字符 串 XmmSre 就 是 “XMM0”。 宏 指示 符 substr GR 
回 一 个 字符 串 的 子 串 ) 和 catstr (连接 两 个 字符 串 ) 用 于 初始 化 XmmSrc。 语 句 YmmSrcSuffix 
SUBSTR <YmmSrc>, 2 将 一 个 字符 串 赋 给 YmmSrcSuffix， 其 中 不 包括 宏 参 数 YmmsSrc 的 前 导 字 
符 。 下 一 条 语句 XmmSrc CATSTR «X», YmmSrcSuffix 会 在 YmmSrcSuffix 所 对 应 的 字符 串 前 面 
加 一 个 前 导 的 “X” 并 把 它 赋 给 XmmSrc。 同 样 的 一 组 指示 符 用 来 把 字符 串 赋 给 XmmTmp。 

在 初始 化 所 需 的 宏 定 义 字 符 串 之 后 ， 接 下 来 的 指令 从 指定 的 YMM 寄存 器 中 提取 最 小 的 
单字 节 值 。 指 令 vextracti128 XmmTmp, YmmSre, 1 将 寄存 器 YmmSre 的 高 16 字 节 中 的 内 容 复 
制 到 XmmTmp 中 。 指 令 vpminub XmmSrc, XmmSrc, XmmTmp 将 最 终 的 16 个 最 小 值 加 载 到 
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XmmSrc 中 。 指 令 vpsrldg XmmTmp, XmmSre, 8 为 XmmSre 中 的 值 建立 一 个 副本 ， 并 把 副本 中 
的 值 向 右 移 位 8 个 字 节 ， 然 后 将 结果 保存 到 XmmTmp 中 。 这 样 的 操作 为 男 一 个 vpminub 指令 
的 使 用 提供 了 方便 ， 该 指令 将 单字 节 最 小 值 的 数量 从 16 个 减少 到 8 个 。vpsrldq 和 vpminub 两 
个 指令 被 重复 使 用 ， 直 到 最 后 的 最 小 值 保存 在 XmmSre 的 低位 字 节 中 。 指 令 vpextrb GprDes, 
XmmsSre, 0 将 最 终 的 最 小 值 复制 到 指定 的 通用 寄存 器 当中 。 

PR BX Avx64CalcRgbMinMax 使 用 了 寄存 器 YMM3 ~ YMMS 和 YMM6 ~ YMMS 分 
别 来 维护 RGB 最 小 值 和 最 大 值 。 在 主 循环 的 每 次 迭代 中 ， 一 系列 的 vpminub 和 vpmaxub 
指令 被 用 来 更 新 当前 的 RGB 最 小 值 和 最 大 值 。 到 主 循环 结束 的 时 候 ， 上 面 提 到 的 YMM 寄 
存 器 包含 了 最 终 的 32 个 RGB 的 最 小 像素 值 和 最 大 像素 值 。 然后， YmmVpextrMinub 和 _ 
YmmVpextrMaxub 两 个 宏 被 用 来 提取 最 终 的 RGB 最 小 像素 值 和 最 大 像素 值 。 这 些 值 最 终 被 
保存 到 指定 的 数组 中 作为 运算 结果 。 

函数 Avx64CalcRgbMinMax_ 中 使 用 了 YMM 寄存 器 ， 这 意味 着 在 函数 结语 之 前 需要 调 
用 vzeroupper, Z5i&LA RestoreXmmRegs 的 宏 调用 语句 作为 开始 。 请 注意 ， 在 结语 之 前 使 
用 vzeroall 指令 是 不 合理 的 ， 因 为 64 位 函数 必须 保存 寄存 器 XMM6 ~ XMMIS 中 的 内 容 。 
不 过 ,vzeroall 指令 仍 可 被 用 于 64 位 函数 体内 ， 只 要 非 易 变 XMM 寄存 器 的 内 容 能 够 被 保存 。 
输出 20-5 显示 了 示例 程序 Avx64CalcRgbMinMax 的 执行 结果 。 


输出 20-5 ”示例 程序 Avx64CalcRgbMinMax 
Results for Avx64CalcRgbMinMax 


min vals: 4 1 3 
min vals29: 4 1 3 


max valsi: 254 251 252 
max vals2: 254 251 252 


20.2.3 EKA 


在 第 9 3€, 我 们 已 经 学 习 了 如 何 利用 x86-SSE 指令 集 计算 两 个 4x4 单 精度 浮 点 数 和 矩阵 
的 积 。 本 小 节 我 们 将 学 习 有 关 和 矩阵 的 另外 一 个 示例 程序 ， 该 程序 可 以 利用 64 位 x86-AVX 指 
令 集 来 计算 一 个 4x4 单 精度 浮 点 数 矩 阵 的 逆 矩 阵 。 清 单 20-12 和 清单 20-13 分 别 列 出 了 示 
例 程序 Avx64CalcMat4 x 4Inv 的 C++ 和 汇编 语言 源 代码 。 


清单 20-12 Avx64CalcMat4 x 4Inv.cpp 


#include "stdafx.h" 
#include «math.h» 
#include "Avx64CalcMat4x4Inv.h" 


//#define MAT INV DEBUG // 去 掉 注 释 可 以 启用 额外 的 打印 输出 


bool Mat4x4InvCpp(Mat4x4 m inv, Mat4x4 m, float epsilon, bool* is singular) 
{ 

. declspec(align(32)) Mat4x4 m2; 

. declspec(align(32)) Mat4x4 m3; 

. declspec(align(32)) Mat4x4 m4; 

float ti, t2, t3, t4; 

float c1, c2, c3, c4j 


x86-64 PGES $ AUIE JL AS E 


// 确保 所 有 和 矩阵 都 是 对 齐 的 

if (((uintptr t)m inv & ox1f) !- 0) 
return false; 

if (((uintptr t)m & oxif) !- 0) 
return false; 


// 计算 所 需 的 矩阵 迹 ( 主 对 角 线 上 所 有 元 素 之 和 ) 
Mat4x4Mul(m2, m, m); 

Mat4x4Mul(m3, m2, m); 

Mat4x4Mul(m4, m3, m); 


t1 = Mat4x4Trace(m); 

t2 = Mat4x4Trace(m2); 
t3 = Mat4x4Trace(m3); 
t4 = Mat4x4Trace(m4); 


#ifdef MAT INV DEBUG 


itendif 
c1 = -t1; 
€2 = -1.0f / 2.0f * (ct * t1.4 t2); 
C3 = -1.0f / 3.0f * (c2 * t1 + c1 * t2 + t3); 
c4 = -1.0f / 4.0f * (c3 * t1 + c2 * t2 + c1 * t3 + t4); 


printf("ti: %16e\n", t1); 
printf("t2: %16e\n", t2); 
printf("t3: %16e\n", t3); 
printf("t4: %16e\n", t4); 


#ifdef MAT INV DEBUG 


printf("c1: %16e\n", c1); 
printf("c2: %16e\n", c2); 
printf("c3: %16e\n", c3); 
printf("c4: %16e\n", c4); 


Hendif 


} 


// 确保 矩阵 是 非 奇异 的 


if ((*is singular = (fabs(c4) < epsilon)) !- false) 


return false; 


// 计算 -1.0 / c4 * (m3 + c1 * m2 + c2 * m+ c3 * I) 


. declspec(align(32)) Mat4x4 I; 


. declspec(align(32)) Mat4x4 tempA, tempB, tempC, tempD; 


Mat4x4SetI(I); 

Mat4x4MulScalar(tempA, I, c3); 
Mat4x4MulScalar(tempB, m, c2); 
Mat4x4MulScalar(tempC, m2, c1); 
Mat4x4Add(tempD, tempA, tempB); 
Mat4x4Add(tempD, tempD, tempC); 
Mat4x4Add(tempD, tempD, m3); 
Mat4x4MulScalar(m inv, tempD, -1.0f / c4); 
return true; 


void Avx64Mat4x4Inv(Mat4x4 m, const char* s) 


( 


Mat4x4Printf(m, s); 


for (int i = 0; i <= 1; i++) 
{ 
const float epsilon = 1.0e-9f; 
. declspec(align(32)) Mat4x4 m inv; 
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. declspec(align(32)) Mat4x4 m ver; 
bool rc, is singular; 


if (i == 0) 


printf("\nCalculating inverse matrix - Mat4x4InvCpp\n"); 
rc = Mat4x4InvCpp(m_inv, m, epsilon, &is singular); 


} 
else 
{ 
printf("\nCalculating inverse matrix - Mat4x4Inv_\n"); 
rc = Mat4x4Inv_(m_inv, m, epsilon, &is singular); 
} 
if (Irc) 
if (is singular) 
printf("Matrix 'm' is singular\n"); 
else 
printf("Error occurred during calculation of matrix 
inverseW"); 
} 
else 
{ 


Mat4x4Printf(m inv, "\nInverse matrix in"); 
Mat4x4Mul(m ver, m inv, m); 
Mat4x4Printf(m ver, "\nInverse matrix verification in"); 


} 
604 } 


void Avx64CalcMat4x4Inv(void) 


{ 
. declspec(align(32)) Mat4x4 m; 


printf("Results for Avx64CalcMatax4Inv An"); 


Mat4x4SetRow(m, 0, 2, 7, 3, 4); 
Mat4x4SetRow(m, 1, 5, 9, 6, 4.75); 
Mat4x4SetRow(m, 2, 6.5, 3, 4, 10); 
Mat4x4SetRow(m, 3, 7, 5.25, 8.125, 6); 
Avx64Mat4x4Inv(m, "\nTest Matrix #1\n"); 


Mat4x4SetRow(m, 0, 0.5, 12, 17.25, 4); 
Mat4x4SetRow(m, 1, 5, 2, 6.75, 8); 
Mat4x4SetRow(m, 2, 13.125, 1, 3, 9.75); 
Mat4x4SetRow(m, 3, 16, 1.625, 7, 0.25); 
Avx64Mat4x4Inv(m, "\nTest Matrix #2\n"); 


Mat4x4SetRow(m, 0, 2, 0, 0, 1); 

Mat4x4SetRow(m, 1, 0, 4, 5, 0); 

Mat4x4SetRow(m, 2, 0, 0, 0, 7); 

Mat4x4SetRow(m, 3, 0, 0, 0, 6); 

Avx64Mat4x4Inv(m, "\nTest Matrix #3\n"); 
} 


int tmain(int argc, _TCHAR* argv[]) 


{ 
#ifdef _DEBUG 
Avx64CalcMat4x4InvTest(); 
#endif 
Avx64CalcMat4x4Inv(); 
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Avx64CalcMat4x4InvTimed() ; 
return 0; 


if # 20-13 Avx64CalcMat4 x 4Inv_.asm 
include «MacrosX86-64.inc» 


ConstVals segment readonly align(32) 'const' 
VpermpsTranspose dword 0,4,1,5,2,6,3,7 
VpermsTrace dword 0,2,5,7,0,0,0,0 


Mat4x4I real4 1.0, 0.0, 0.0, 0.0 


real4 0.0, 1.0, 0.0, 0.0 
real4 0.0, 0.0, 1.0, 0.0 
real4 0.0, 0.0, 0.0, 1.0 


r4 SignBitMask dword 80000000h,80000000h,80000000h, 80000000h 


r4 AbsMask dword 7fffffffh,7fffffffh,7fffffffh,7fffffffh 
r4 1p0 real4 1.0 

r4 N1pO real4 -1.0 

r4 NOp5 real4 -0.5 

r4 NOp3333 real4 -0.3333333333 

r4 Nop25 real4 -0.25 


ConstVals ends 


.code 


; 宏 定 义 _Mat4x4TraceYmm 


; 描述 : 下 面 的 宏 定 义 生 成 代码 ， 用 于 计算 一 个 存放 于 ymmi:ymmO 中 的 4x4 SPFP 和 矩阵 的 迹 


 Mat4x4TraceYmm macro 


vblendps ymmo, ymmo, ymm1, 84h 

vmovdqa ymm2,ymmword ptr [VpermsTrace] 
vpermps ymmi,ymm2,ymmo 

vhaddps ymmo, ymm1, ymm1 

vhaddps ymmo, ymmo, ymmo 

endm 


;复制 对 角 线 元 素 到 ymm0 中 
;ymm1[127:0] 用 于 对 角 线 元 素 
;ymm0[31:0] 用 于 存放 和 矩阵 的 迹 


; Mat4x4Mul 


3 
3 
> 
2 
3 
3 
2 
3 
2 


描述 


> 输入 : 


> 输出 : 


: 下 面 的 函数 用 于 计算 两 个 4x4 EAR 


ymmi:ymmO m1 
ymm3:ymm2 m2 


ymmi:ymmO m1 * m2 


: 在 下 面 的 注释 中 ，m2T 代表 矩阵 m2 的 转 置 矩阵 


Mat4x4Mul proc private 


; 计算 m2 的 转 置 矩 阵 


vmovdqa ymm6,ymmword ptr [VpermpsTranspose] ;ymm6 用 于 存放 vperms 的 索引 值 
vunpcklps ymm4,ymm2,ymm3 


vunpckhps ymm5,ymm2,ymm3 ;ymm4 用 于 存放 部 分 转 置 矩阵 
vpermps ymm2,ymm6,ymm4 
vpermps ymm3,ymm6,ymm5 jymm2 用 于 存放 m2T 


; 将 m2T 中 的 行 复制 到 ymm* [255:128] 和 ymm* [127:0] 中 


vperm2f128 ymm4,ymm2,ymm2,00000000b ;ymm4 用 于 存放 m2T 的 第 0 行 元 素 
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vperm2f128 ymm5,ymm2,ymm2,00010001b 
vperm2f128 ymm6,ymm3,ymm3,00000000b 
vperm2f128 ymm7,ymm3 , ymm3 ,00010001b 


执行 第 0、1 行 的 mataxa 乘法 运算 


3 

3 

; ymm8[31:0] = dp(m1.row0, m2T.row0) 
; ymm8[159:128] = dp(m1.row1, m2T.row0) 
; ymm9[63:32] = dp(mi.rowO, m2T.row1) 
3 ymm9[191:160] = dp(m1.row1, m2T.row1) 
; ymm10[95:64] = dp(mi.rowO, m2T.row2) 
; ymm10[223:192] = dp(m1.row1, m2T.row2) 
; ymm11[127:96] = dp(mi.rowO, m2T.row3) 
3 


ymm11[255:224] = dp(m1.row1, m2T.row3) 
vdpps ymm8,ymmO,ymm4, 11110001b 
vdpps ymm9,ymmO,ymm5,11110010b 
vdpps ymm10, ymmo, ymm6, 11110100b 
vdpps ymm11,ymmO, ymm7 ,11111000b 
vorps ymm8,ymm8,ymm9 
vorps ymm10,ymm10,ymmii 
vorps ymmo, ymm8 , ymm10 


执行 第 2、3 行 的 mat4x4 乘法 运算 
ymm8[31:0] = dp(mi.row2, m2T.rowO) 
ymm8[159:128] = dp(mi.row3, m2T.row0) 
ymm9 [63:32] dp(mi.row2, m2T.row1) 
ymm9 [191:160] dp(m1.row3, m2T.row1) 
ymm10[95:64] dp(m1.row2, m2T.row2) 
ymm10[223:192] dp(m1.row3, m2T.row2) 
ymm11[127:96] dp(mi.row2, m2T.row3) 
ymm11[255:224] dp(mi.row3, m2T.row3) 
vdpps ymm8,ymm1,ymm4,11110001b 
vdpps ymm9, ymm1,ymm5,11110010b 
vdpps ymm10, ymm1, ymm6 ,11110100b 
vdpps ymmi1,ymm1, ymm7,11111000b 
vorps ymm8, ymm8 , ymm9 
vorps ymm10,ymm10, ymm11 
vorps ymm1, ymm8, ymm10 
ret 
Mat4x4Mul endp 


We ws we we wes us ve we we 


;ymm5 用 于 存放 mT 的 第 1 行 元 素 
;ymm6 用 于 存放 m2T 的 第 2 行 元 素 
;ymm7 用 于 存放 m2T 的 第 3 行 元 素 


所 有 没有 使 用 的 vdpps 目的 寄存 器 元 素 都 被 设 成 0 


;保存 第 0、1 行 的 运算 结果 


;保存 第 2、3 行 的 运算 结果 


; extern "C" bool Mat4x4Inv (Mat4x4 m inv, Mat4x4 m, float epsilon, bool*e 


is singular); 
; 描述 : 下 面 的 函数 计算 一 个 4x4 AE ERSTE 


mx. x86-64 和 AVX2 支持 


; 注意 : 在 下 面 的 注释 中 , m2 =m* m，m3 = m * m * m, 等 等 


; 栈 中 存放 的 临时 值 的 偏 移 量 
OffsetM2Lo equ 0 
OffsetM2Hi equ 32 
OffsetM3Lo equ 64 
OffsetM3Hi equ 96 


Mat4x4Inv proc frame 
_CreateFrame Minv ,16,160 


;m2 rows 0 and 1 
;m2 rows 2 and 3 
;m3 rows O and 1 
;m3 rows 2 and 3 


_SaveXmmRegs xmm6 , xmm7 , xmm8 , xmm9 , xmm10 , xmm11 , xmm12 , xmm13 , xmm14 , xmm15 


_EndProlog 


; 执行 必要 的 初始 化 和 验证 
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we 


EI v. 


wee 


we 


wee ve us ws ve we ve 


test rcx,01fh 

jnz Error 

test rdx,0ifh 

jnz Error 

vmovaps ymm14, [rdx] 

vmovaps ymmi5,[rdx432] 
vmovss real4 ptr [rbp],xmm2 
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i m inv 未 对 齐 则 跳 转 
i m 未 对 齐 则 跳 转 


;ymm15:ymm14 = m 
;保存 epsilon 以 备 后 续 使 用 


临时 矩阵 分 配 128 字 节 的 空间 ， 以 32 字 节 边界 对 齐 


and rsp,Offffffeoh 
sub rsp,128 


计算 mz 6518 

vmovaps ymmo,ymm14 

vmovaps ymmi,ymm15 

vmovaps ymm2,ymm14 

vmovaps ymm3,ymm15 

call Mat4x4Mul 

vmovaps [rsp«OffsetM2Lo], ymmo 
vmovaps [rsp+0ffsetM2Hi] , ymm1 


计算 m3 的 值 

vmovaps ymm2,ymm14 

vmovaps ymm3,ymm15 

call Mat4x4Mul 

vmovaps [rsp4OffsetM3Lo] , ymmo 
vmovaps [rsp+0ffsetM3Hi] , ymm1 
vmovaps ymmi2,ymmO 

vmovaps ymm13,ymmi 


计算 m4 的 值 
vmovaps ymm2,ymm14 
vmovaps ymm3,ymm15 
call Mat4x4Mul 


计算 并 保存 矩阵 的 迹 
_Mat4x4TraceYmm 
vmovss xmm10, xmmO,xmmO 


vmovaps ymmO, ymm12 
vmovaps ymm1, ymm13 
_Mat4x4TraceYmm 
vmovss xmm9,xmmO, xmmO 


vmovaps ymmo, [rsp*OffsetM2Lo] 
vmovaps ymmi,[rsp«OffsetM2Hi] 
_Mat4x4TraceYmm 

vmovss xmm8,xmmO, xmmO 


vmovaps ymmO, ymm14 
vmovaps ymm1, ymm15 
_Mat4x4TraceYmm 
vmovss xmm7,xmm0O, xmmO 


;将 rsp 对 齐 到 32 字 节 边界 
;为 临时 和 矩阵 分 配 空间 


;ymmi:ymmo = m 


,ymm3:ymm2 - m 
;ymmi:ymmO = m2 
;保存 m2 的 值 

;ymm3:ymm2 = m 


;ymmi:ymmO = m3 


;保存 m3 的 值 


;ymm13:ymm12 = m3 


;ymm3:ymm2 = m 
;ymmi:ymmO = m4 
;xmm10 = t4 
;xmm9 - t3 
;xmm8 - t2 
;xmm7 = t1 


计算 所 需 的 系数 

C1 = -t1; 

C2 = -1.0f / 2.0f * (c1 * t1 + t2); 

C3 = -1.0f / 3.0f * (c2 * t1 + c1 * t2 + t3); 

c4 = -1.0f / 4.0f * (c3 * t1 + c2 * t2 + c1 * t3 + t4); 


使 用 的 寄存 器 : t1 ~ t4 = xmm7 ~ xmm10, c1 ~ c4 = xmm12 ~ xmmi5 
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vxorps xmm12,xmm7,real4 ptr [r4 SignBitMask] 


vmulss xmm13,xmm12,xmm7 
vaddss xmm13,xmm13,xmm8 
vmulss xmm13,xmm13,[r4 _Nop5] 


vmulss xmm14,xmm13,xmm7 

vmulss xmmo,xmm12,xmm8 

vaddss xmm14,xmm14, xmmO 

vaddss xmm14,xmm14, xmm9 

vmulss xmmi4,xmm14,[r4 Nop3333] 


vmulss xmm15,xmm14,xmm7 
vmulss xmmo,xmm13,xmm8 
vmulss xmm1,xmm12,xmm9 
vaddss xmm2,xmmo, xmm1 


vaddss xmm15,xmm15,xmm2 
vaddss xmm15,xmm15,xmm10 
vmulss xmm15,xmmi5,[r4 NOp25] 


; 确保 和 矩阵 不 是 奇异 的 
vandps xmmi,xmmi5,[r4 AbsMask] 
vcomiss xmm1,real4 ptr [rbp] 
setp al 
setb ah 
or al,ah 
mov [r9],al 
jnz Error 


$61 * ER 
scl * t1 4 t2 
j,xmm13 = c2 


3c2 * t4 

set. © 2 

jc2 * t1 + c1 
$c2 * t4 4. €1 
;xmm14 = c3 


$c3 * tl 
$c2 * t2 
sea. t3 
3c2 "$12 4 c1 


303 * t1 4 c2 '* 


303), * £4 c 
;xmm15 = c4 


;计算 fabs(c4) 


;xmm12 = c1 
* t2 
* t2 + t3 
» 3 
t24c1* t3 


*t2«c1*t34t4 


的 值 


;结果 与 epsilon 进行 比较 
; 若 比较 结果 为 无 序 则 al 置 位 


3% fabs(c4) < 


epsilon 则 ah 置 位 


jal 代表 是 否 为 奇异 矩阵 
;保存 是 否 为 奇异 矩阵 的 状态 
;若是 奇异 矩阵 则 跳 转 


; iE m inv = -1.0 / c4 * (m3 + c1 * m2 + c2 * m1 + c3 * I) 


vmovaps ymmo, [rsp*OffsetM3Lo] 
vmovaps ymmi,[rsp«OffsetM3Hi] 


vbroadcastss ymmi2,xmm12 


vmulps ymm2,ymm12,[rsp«OffsetM2Lo] 
vmulps ymm3,ymm12,[rsp+OffsetM2HI]  ;ymm3:ymm2 


vbroadcastss ymm13,xmm13 
vmulps ymm4, ymm13, [rdx] 
vmulps ymm5,ymm13, [rdx+32] 


vbroadcastss ymm14,xmm14 
vmulps ymm6,ymm14, [Mat4x4I] 
vmulps ymm7,ymm14, [Mat4x41+32] 


vaddps ymmO,ymmO, ymm2 
vaddps ymm1,ymm1, ymm3 
vaddps ymm8, ymm4, ymm6 
vaddps ymm9, ymm5 , ymm7 
vaddps ymmo, ymmo, ymm8 
vaddps ymm1,ymm1, ymm9 


vmovss xmm2,[r4 N1po] 
vdivss xmm2,xmm2,xmm15 
vbroadcastss ymm2,xmm2 
vmulps ymmo, ymmO,ymm2 
vmulps ymmi,ymmi,ymm2 


vmovaps [rcx],ymmo 
vmovaps [rcx+32],ymm1 
mov eax,1 


,ymmi:ymmO = m3 

= c1 * m2 
;ymm5:ymm4 = c2 * m 
;ymm7:ymm6 = c3 * I 
;ymmi:ymmO = m3 + ci*m2 
;ymm9:ymm8 = c2*m + c3*I 
j;ymm1:ymmO = matrix sum 
;xmm2 - -1.0 / c4 
;ymmi:ymmO = m inv 
;保存 m_inv 
;设置 成 功 返 回 码 
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Done: vzeroupper 

 RestoreXmmRegs xmm6 ,xmm7 , xmm8 , xmm9 , xmm10 , xmm11 , xmm12 , xmm13 , ~ 
xmm14 , xmm15 

 DeleteFrame 

ret 


Error: xor eax,eax 
jmp Done 
Mat4x4Inv_ endp 


;下面 的 函数 用 于 软件 测试 和 调试 
Mat4x4Trace proc 
 Mat4x4TraceYmm 
ret 
Mat4x4Trace endp 
Mat4x4Mul proc 
call Mat4x4Mul 
ret 
Mat4x4Mul endp 
end 


和 矩阵 的 乘法 逆 矩 阵 定 义 如 下 : 

WA AIX ABS nxn WE, BAX = XA- Dor, WABEE XE A I. Hh I 
表示 一 个 nxn WR. K 20-4 Ai T -DEEE ATF. HERES ETA BY nx n 5B 
ERA BER, A E E EY PEA PE. 


0.1875 -0.0625 -0.125 1 0 0 
X=] 0.0625 -0.1875 0.125| AX-XA-1-|0 1 0 
0 0 1 


-0.125 0.375 0.25 





图 20-4 E ARER X 


矩阵 的 逆 矩 阵 可 以 使 用 多 种 数学 方法 求 出 。 示 例 程序 Avx64CalcMat4 x 4Inv 使 用 了 一 
个 基于 凯 莱 - 哈密 顿 定理 的 计算 方法 ， 其 中 使 用 了 一 些 容 易 利 用 SIMD 算术 方法 展开 的 矩阵 
运算 。 图 20-5 定义 了 一 些 计 算 4x4 和 矩阵 的 逆 和 矩阵 所 必需 的 公式 ， 其 中 ， 和 矩 阵 的 迹 (trace) 
就 是 其 主 对 角 线 元 素 的 和 。 


A! = A, A! = AA, A’ = AAA, A’ = AAAA 


n-1 
t, = trace(A") trace(A)= bi di 
i-0 
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C4 
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清单 20-12 列 出 了 示例 程序 Avx64CalcMat4 x 4Inv 的 C+ 代码。 在 程序 一 开始 有 一 个 函 
数 Mat4 x 4InvCpp， 它 使 用 图 20-5 中 的 公式 来 计算 一 个 4x4 单 精度 浮 点 数 和 矩阵 的 首 矩 阵 。 在 
对 Mat4 x 4 型 参数 m 和 m inv 进行 过 对 齐 验证 之 后 ， 函 数 Mat4 x 4InvCpp 使 用 两 个 辅助 函数 
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Mat4 x 4Mul 和 Max4 x 4Trace (这 两 个 函数 的 代码 没有 列 出 ， 仅 包含 在 可 下 载 的 软件 包 里 ) 来 
+S tl ~ t4 fü. cl ~ c4 的 值 则 在 后 面 的 代码 中 使 用 简单 的 标量 浮 点 算术 运算 得 出 。 如 果 
c4 的 值 为 0， 则 和 矩阵 m 是 奇异 的 ， 此 时 函数 Mat4 x 4InvCpp SBA Ik. AM, RAKKERS 
被 算出 并 存放 在 m. inv 中 。 

汇编 语言 文件 Avx64CalcMat4 x 4Inv_.asm (清单 20-13 ) 定义 了 一 个 名 为 _Mat4 x 4TraceYmm 
的 宏 ， 用 来 计算 一 个 4x4 单 精度 浮 点 数 矩 阵 的 迹 。 这 个 宏 需 要 将 它 处 理 的 源 和 矩阵 存放 到 寄存 
器 YMMO (第 0 行 和 第 111) AL YMMI (第 2 行 和 第 3 行 ) Po CE f HI volendps, vpermps 和 
vhaddps 指令 来 计算 和 矩阵 的 迹 ， 如 图 20-6 所 示 。 


13 25 9 4 


ymm0[127:0] = row0, ymm0[255:128] = rowl 









ymm1[127:0] = row2, ymm1[255:128] = row3 







vblendps ymm0, ymm0, ymm1, 84h 






vmovdqa ymm2, ymmword ptr [VpermsTrace] 


vpermps ymml, ymm2, ymm0 





vhaddps ymm0, ymm1, ymm1 





vhaddps ymm0, ymm0, ymmO 





# 表 示 可 以 忽略 


图 20-6 计算 矩阵 的 迹 


宏 定 义 Max4xA4TraceY mm 后 是 一 个 名 为 Mat4 x 4Mul 的 私有 函数 。 这 个 函数 计算 两 
个 4x4 单 精度 浮 点 数 和 矩阵 的 积 。 这 里 所 使 用 的 方法 与 第 10 章 中 使 用 的 方法 类 似 。 首 先 ， 使 
用 指令 vunpcklps, vunpckhps 和 vperms 计算 矩阵 m2 Wte EE ABER, Anl 20-7 所 示 。 然 后 ， 
使 用 指令 vperm2f128 (排列 浮 点 值 ) 将 转 置 矩 阵 的 每 一 行 拷贝 到 YMM 寄存 器 的 低 128 位 和 
高 128 位 。 每 一 行 的 复制 将 必须 进行 的 点 积 计 算数 从 16 减少 到 8。 最 后 ， 使 用 一 系列 vdpps 
和 vorps 指令 计算 矩阵 积 。 注 意 ， 每 个 vdpps YMM 目标 操作 数 未 使 用 的 元 素 被 设置 为 0.0， 
以 方便 使 用 vorps 指令 计算 最 终 的 值 。 

函数 Max4 x 4Inv_ 使 用 与 其 对 应 的 C++ 代码 同样 的 逻辑 来 计算 逆 和 矩阵。 首先， 矩阵 的 
迹 tl ~ t4 fi JH PR Mat4 x 4Mul 和 宏 Mat4 x 4TraceYmm 来 求 出 。 接 下 来 系数 cl ~ c4 由 
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x86-AVX 标量 浮 点 数 算 术 运 算 求 出 。 系 数 c4 会 被 检测 以 确保 矩阵 不 是 奇异 的 。 最 后 是 计算 
所 需 的 逆 和 矩阵 。 注 意 ， 求 逆 和 矩阵 所 需 的 所 有 算术 运算 都 直接 使 用 组 合 乘法 ( vmulps) 和 加 法 
( vaddps)。 输 出 20-6 显示 了 示例 程序 Avx64Mat4 x AInv 的 执行 结果 。 表 20-3 给 出 了 一 些 时 
间 测 量 数据 。 


6 10 3 7 o 23 13 3$ 

$3 4 122 H 10 2 45 
M= M'= 

i3 4 23 9 3 12 3 1 

8 $ I1 2 7 1k 9 3 


vunpckhps ymm5, ymm2, ymm3 





vpermps ymm2, ymm6, ymm4  ;ymm2 = M T rows 0 and 1 











vpermps ymm3, ymm6, ymm5 


;ymm3 = M T rows 2 and 3 














图 20-7 计算 矩阵 的 转 置 矩阵 


输出 20-6 示例 程序 Avx64CalcMat4 x 4Inv 
Results for Avx64CalcMat4x4Inv 


Test Matrix #1 


2.000000 7.000000 3.000000 4.000000 
5.000000 9.000000 6.000000 4.750000 
6.500000 3.000000 4.000000 10.000000 
7.000000 5.250000 8.125000 6.000000 


Calculating inverse matrix - Mat4x4InvCpp 


Inverse matrix 


-0.943926 0.916570 0.197547 -0.425579 
-0.056882 0.251148 0.003028 -0.165952 
0.545399 . -0.647656 -0.213597 0.505123 
0.412456 -0.412053 0.056125 0.124363 
Inverse matrix verification 
1.000000 -0.000000 0.000000 -0.000000 
0.000000 1.000000 0.000000 0.000000 
-0.000000 0.000000 1.000000 0.000000 


0.000000 0.000000 0.000000 1.000000 
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Calculating inverse 


Inverse matrix 
-0.943926 
-0.056882 

0.545399 
0.412456 


Inverse matrix 
1.000000 
0.000000 

-0.000000 
0.000000 


Test Matrix #2 
0.500000 
5.000000 

13.125000 
16.000000 


0.916570 
0.251148 
-0.647656 
-0.412053 


verification 
-0.000000 
1.000000 
0.000000 
0.000000 


12.000000 
2.000000 
1.000000 
1.625000 


matrix - Mat4x4Inv 


0.197547 
0.003028 
-0.213597 
0.056125 


0.000000 
0.000000 
1.000000 
0.000000 


17.250000 
6.750000 
3.000000 
7.000000 


Calculating inverse matrix - Mat4x4InvCpp 


Inverse matrix 
0.001652 
0.135369 
-0.035010 

-0.005335 


Inverse matrix 
1.000001 
-0.000000 
0.000000 
0.000000 


-0.069024 
-0.359846 
0.239298 
0.056194 


verification 
0.000000 
1.000000 
0.000000 
0.000000 


0.054959 
0.242038 
-0.183964 
0.060361 


0.000000 
-0.000000 
1.000001 
0.000000 


Calculating inverse matrix - Mat4x4Inv_ 


Inverse matrix 
0.001652 
0.135369 
-0.035010 
-0.005335 


Inverse matrix 
1.000001 
-0.000000 
0.000000 
0.000000 


Test Matrix #3 
2.000000 
0.000000 
0.000000 
0.000000 


-0.069024 
-0.359846 
0.239298 
0.056194 


verification 
0.000000 
1.000000 
0.000000 
0.000000 


0.000000 
4.000000 
0.000000 
0.000000 


0.054959 
0.242038 
-0.183964 
0.060361 


0.000000 
-0.000000 
1.000001 
0.000000 


0.000000 
5.000000 
0.000000 
0.000000 


Calculating inverse matrix - Mat4x4InvCpp 
Matrix 'm' is singular 


Calculating inverse matrix - Mat4x4Inv_ 
Matrix 'm' is singular 


-0.425579 
-0.165952 
0.505123 
0.124363 


-0.000000 
0.000000 
0.000000 
1.000000 


4.000000 
8.000000 
9.750000 
0.250000 


0.038935 
-0.090325 
0.077221 
-0.066908 


0.000000 
-0.000000 
0.000000 
1.000001 


0.038935 
-0.090325 
0.077221 
-0.066908 


0.000000 
-0.000000 
0.000000 
1.000001 


1.000000 
0.000000 
7.000000 
6.000000 


Benchmark times saved to file — Avx64CalcMat4x4InvTimed.csv 
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表 20-3 示例 程序 Avx64CalcMat4x4Inv ( 10 000 次 和 矩阵 求 逆 操 作 ) 
中 的 矩阵 求 逆 函 数 的 平均 执行 时 间 (单位 : 微 秒 ) 


CPU C++ x86-AVX-64 
Intel Core i7-4770 980 420 
Intel Core i7-4600U 1194 491 





20.2.4 其 他 指令 


本 章 的 最 后 一 个 示例 程序 名 为 Avx64MiscInstructions， 它 演示 了 如 何在 一 个 64 位 汇编 
语言 函数 中 使 用 选择 收集 (select gather) 和 半 精 度 浮 点 指令 。 清 单 20-14 和 清单 20-15 分 别 
给 出 了 示例 程序 Avx64MiscInstructions 的 C++ 和 汇编 语言 源 代码 。 


清单 20-14 Avx64Misclnstructions.cpp 


#include "stdafx.h" 
#include "MiscDefs.h" 
#define USE MATH DEFINES 
#include «math.h» 


extern "C" void Avx64GatherFloatIndx32 (float g[8], const float* x, Int32~ 
indices[8]); 

extern "C" void Avx64GatherFloatIndx64 (float g[4], const float* x, Int64« 
indices[4]); 

extern "C" void Avx64FloatToHp (Uint16 x hp[8], float x1[8]); 

extern "C" void Avx64HpToFloat (float x[8], Uint16 x hp[8]); 


void Avx64GatherFloat(void) 
{ 


const int n = 20; 
float xi[n]; 


printf("Results for Avx64GatherFloat()\n"); 
printf("\nSource array\n"); 


for (int i = 0; i < nj i++) 
{ 
xi[i] = i * 100.0f; 
printf("xi[X02d]: %6.1f\n", i, x1[i]); 


) 
printf(" in"); 


float gi 32[8], gi 64[4]; 
Int32 gi indices32[8] - (2, 3, 7, 1, 1, 12, 4, 17); 
Int64 gi indices64[4] = (5, 0, 19, 13); 


Avx64GatherFloatIndx32 (gi 32, x1, gi indices32); 
for (int i = 0; i < 8; i++) 
printf("gi 32[%02d] = %6.1f (gathered from x[%02d])\n", i, g1_32[i],~ 
g1 indices32[i]); 


printf("\n"); 


Avx64GatherFloatIndx64 (gi 64, x1, gi indices64); 
for (int i = 0; i < 4; i++) 
printf("gi 64[%02d] = %6.1f (gathered from x[X0211d]) n", i, 
gi 64[i], gi indices64[i]); 
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void Avx64HalfPrecision(void) 


{ 
float x1[8], x2[8]; 
Uint16 x hp[8]; 
x1i[0] = 0.5f; x1[1] = 1.0f Z 512.0f; 
x1[2] = 1004.0625f; x1[3] = 5003.125f; 
x1[4] = 42000.5f; x1[5] = 75600.875f; 
x1[6] = -6002.125f; x1[7] = (float)M PI; 
Avx64FloatToHp (x hp, x1); 
Avx64HpToFloat (x2, x hp); 
printf("\nResults for Avx64HalfPrecision()\n"); 
for (int i = 0; i < 8; i++) 
printf("Xd %16.6f %16.6f\n", i, xi[i], x2[i]); 
} 
int tmain(int argc, _TCHAR* argv[]) 
( 
Avx64GatherFloat(); 
Avx64HalfPrecision(); 
return 0; 
) 


清单 20-15 Avx64Misclnstructions_.asm 


include «Macrosx86-64.inc» 


.const 
MaskVgatherdps dword 80000000h, 80000000h ,, 80000000h , 80000000h 
dword 80000000h,80000000h, 80000000h , 80000000h 
MaskVgatherqps dword 80000000h,80000000h,80000000h, 80000000h 
.code 
; extern "C" void Avx64GatherFloatIndx32 (float g[8], const float* x, Int32« 
indices[8]); 


; 描述 : 下 面 的 函数 演示 了 vgatherdps 指令 的 用 法 
; 需要 : x86-64 和 AVX2 支持 
Avx64GatherFloatIndx32 proc 
vmovdqu ymmO,ymmword ptr [r8] 
vmovdqu ymmi,ymmword ptr [MaskVgatherdps] 
vgatherdps ymm2,[rdx«ymmo*4],ymmi — ;ymm2 用 来 保存 收集 的 SPFP 值 
vmovups ymmword ptr [rcx],ymm2 ;保存 运算 结果 
vzeroupper 
ret 


Avx64GatherFloatIndx32_ endp 


; extern "C" void Avx64GatherFloatIndx64 (float g[4], const float* x, Int64~ 
indices[4]); 


x 描述 : 下 面 的 函数 演示 了 vgatherqps 指令 的 用 法 
; 需要 : x86-64 和 AVX2 支持 
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Avx64GatherFloatIndx64_ proc 
vmovdqu ymmO,ymmword ptr [r8] 
vmovdqu xmm1,xmmword ptr [MaskVgatherqps] 


vgatherqps xmm2,[rdx«ymmo*4],xmmi — ;xmm2 用 于 保存 收集 的 SPFP 值 


vmovups xmmword ptr [rcx],xmm2 ;保存 运算 结果 
vzeroupper 
ret 

Avx64GatherFloatIndx64  endp 


; extern "C" void Avx64FloatToHp (Uint16 x hp[8], float x1[8]); 
; 描述 : 下 面 的 函数 将 一 个 8 SPFP 元 素 的 数组 转换 成 HPFP 型 的 数组 
; 需要 ，x86-64、AVX 和 F16C 支持 


Avx64FloatToHp_ proc 
vmovups ymmO,ymmword ptr [rdx] 
vcvtps2ph xmmword ptr [rcx],ymm0,00000100b ;使 用 就 近 舍 入 
ret 

Avx64FloatToHp_ endp 


; extern "C" void Avx64HpToFloat (float x[8], Uint16 x_hp[8]); 
; 描述 : 下 面 的 函数 将 一 个 8 个 HPFP 元 素 的 数组 转换 成 SPFP 型 的 数组 
; 需要 : x86-64、AVX 和 F16C 支持 


Avx64HpToFloat proc 
vcvtph2ps ymmo,xmmword ptr [rdx] 
vmovups ymmword ptr [rcx],ymmo 
PEE o endp 
end 
C++ 文件 Avx64MiscInstructions.cpp (清单 20-14 ) 包含 了 一 个 名 为 Avx64GatherFloat 
的 函数 。 这 个 函数 会 初始 化 一 些 数据 和 索引 数组 ， 以 供 汇编 语言 函数 Avx64Gather- 
FloatIndx32 和 Avx64GatherFloatIndx64 使 用 。Avx64MiscInstructions.cpp 中 还 包含 一 个 名 为 
Avx64Half-Precision 的 函数 ， 这 个 函数 会 调用 执行 半 精 度 浮 点 数 转换 的 函数 Avx 64FloatToHp 
和 Avx64HpToFloat 。 注 意 ， 由 于 C++ 本身 并 不 支持 半 精 度 浮 点 数据 类 型 ， 所 以 ， 程 序 使 
用 了 一 个 Uint16 型 的 数组 来 临时 存放 半 精 度 浮 点 数 。 
清单 20-15 给 出 了 示例 程序 Avx64MiscInstructions Bj iC 4a if zi PAB. PR BL Avx64- 
GatherFloatIndx32 和 Avx64GatherFloatIndx64 分 别 演 示 了 vgatherdps 和 vgatherqps 指令 的 
使 用 。( 图 12-4 显示 了 vgatherdps 指令 的 执行 。) 注意 第 一 个 指令 使 用 了 32 位 索引 而 第 二 个 
指令 使 用 了 64 位 索引 。vgatherqps 指令 使 用 64 位 索引 意味 着 它 只 能 收集 4 个 而 不 是 8 个 单 
精度 浮 点 数 。 
汇编 语言 文件 Avx64MiscInstructions .asm 还 包括 两 个 用 于 半 精 度 转 换 的 函数 Avx- 
64FloatToHp 和 Avx64HpToFloat 。 这 两 个 函数 使 用 vevtps2ph (将 单 精度 浮 点 数 转 换 成 
16 位 浮 点 数 ) 和 vcvtph2ps (将 16 位 浮 点 数 转 换 成 单 精度 浮 点 数 ) 两 个 转换 指令 来 执行 单 
精度 浮 点 数 和 半 精 度 浮 点 数 之 间 的 相互 转换 。 注 意 vevtps2ph 指令 包含 了 一 个 立即 数 ， 用 
来 指定 转换 过 程 中 使 用 的 伟人 方法 。 如 表 20-4 给 出 了 vcvtps2ph 指令 的 伟人 选项 。 
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% 20-4 vovtps2ph 指令 的 舍 入 选项 









操作 数位 









BLU A 
HFEA 
向 上 伟人 
截断 

使 用 1:0 位 进行 伟人 
使 用 MXCSR.RC 位 进行 伟人 








输出 20-7 给 出 了 示例 程序 Avx64MiscInstructions 的 执行 结果 。 从 中 可 以 看 出 ， 在 单 精 度 
浮 点 数 向 半 精 度 浮 点 数 转换 时 出 现 了 大 量 的 舍 人 。 另 外 ， 数 值 75600.875 被 转换 成 了 无 穷 大 ， 
因为 它 比 半 精 度 浮 点 数据 类 型 的 最 大 值 还 要 大 (函数 printf 会 将 无 穷 大 显示 为 文本 1.4INF00 )。 
正如 我 们 在 12 章 所 讨论 的 ， 半 精度 浮 点 数 转换 指令 主要 是 用 于 降低 存储 空间 。 


输出 20-7 示例 程序 Avx64Misclnstructions 
Results for Avx64GatherFloat() 


Source array 
x1[00]: 0. 
x1[01]: 100. 
x1[02]: 200. 
x1[03]: 300. 
x1[04]: 400 
xi[05]: 500 
x1[06]: 600. 
x1[07]: 700 
x1[08]: 800. 
x1[09]: 900. 
x1[10]: 1000. 
x1[11]: 1100. 
x1[12]: 1200. 
x1[13]: 1300. 
x1[14]: 1400. 
x1[15]: 1500. 
x1[16]: 1600. 
x1[17]: 1700. 
x1[18]: 1800. 
x1[19]: 1900. 


oooocoo0oo0o0o0000000000000 


g1 32[00] = 200.0 (gathered from x[02]) 
g1_32[01] = 300.0 (gathered from x[03]) 
g1_32[02] = 700.0 (gathered from x[07]) 
g1_32[03] = 100.0 (gathered from x[01]) 
g1_32[04] = 100.0 (gathered from x[01]) 
g1_32[05] = 1200.0 (gathered from x[12]) 
g1_32[06] = 400.0 (gathered from x[04]) 


gi 32[07] - 1700.0 (gathered from x[17]) 


gi 64[00] = 500.0 (gathered from x[05]) 
gi 64[01] = 0.0 (gathered from x[00]) 
gi 64[02] - 1900.0 (gathered from x[19]) 
gi 64[03] = 1300.0 (gathered from x[13]) 


Results for Avx64HalfPrecision() 
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0 0.500000 0.500000 
1 0.001953 0.001953 
2 1004.062500 1004.000000 
3 5003.125000 5004.000000 
4 42000. 500000 42016.000000 
5 75600.875000 1.#INFOO 
6 -6002.125000 -6004.000000 
T 3.141593 3.140625 


203 总结 

在 本 章 中 ,我 们 学 习 了 如 何在 x86-64 执行 环境 中 使 用 x86-SSE 和 x86-AVX 的 计算 资 
源 。 我 们 还 讨论 了 采用 不 同 数 据 结构 对 SIMD 算法 效率 的 影响 。 在 接 下 来 的 两 章 中 ， 我 们 将 
学 习 更 多 的 编程 技巧 ， 这 些 技巧 可 用 来 优化 x86 汇编 语言 函数 ， 提 高 它 的 执行 效率 。 
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Modern X86 Assembly Language Programming: 32-bit, 64-bit, SSE, and AVX 


高 级 主题 和 优化 技巧 


为 最 大 化 汇编 代码 的 性 能 ， 我 们 需要 理解 x86 处 理 器 内 部 工作 的 几 个 关键 细节 。 本 章 
中 ， 我 们 将 学 习 现 代 x86 多 核 处 理 器 的 内 部 架构 及 其 依赖 的 微 架 构 。 要 提升 汇编 语言 软件 性 
能 ， 还 需要 恰当 地 使 用 一 些 编程 策略 和 技巧 ， 本 章 也 会 论述 这 些 内 容 。 

要 详细 论述 x86 微 架 构 和 汇编 语言 的 优化 技术 至 少 需 要 几 个 章节 ， 其 至 是 整整 一 本 书 。 
因此 ， 本 章 内 容 只 是 一 个 入 门 型 的 指南 。 关 于 本 章 内 容 的 最 重要 参考 资料 是 《 Intel 64 和 
IA-32 架构 优化 参考 手册 》( Intel 64 and IA-32 Architectures Optimization Reference Manual). 
如 需 获 得 x86 微 架 构 和 汇编 语言 优化 技巧 的 更 多 信息 和 内 幕 ， 建 议 查阅 这 个 重要 的 文献 。 

注意 ”可 以 从 下 面 的 Intel 网 站 下 载 《 Intel 64 和 IA-32 架构 优化 参考 手册 》 和 其 他 重要 
的 x86 软件 开 发 人 员 手 册 : http://www.intel.com/content/www/us/en/processors/architecturessoftware- 


developer-manuals.html. 


21.1 ”处理 器 微 架构 

x86 处 理 器 的 性 能 主要 是 由 它 内 部 的 微 架 构 决 定 的 。 一 个 处 理 器 微 架 构 的 特性 是 由 其 内 
部 硬件 组 件 的 构造 和 运行 方式 决定 的 。 这 些 组 件 包 括 指令 流水 线 、 解 码 器 、 调 度 器 、 执 行 单 
元 、 数 据 总 线 和 缓存 。 了 解 处 理 器 微 架构 基本 概念 的 开发 人 员 ， 通 常 具有 建设 性 的 洞察 力 ， 
能 够 开发 出 更 高 效 的 代码 。 

AMD 和 Intel 公司 总 是 定期 地 宣传 基于 加 强 的 或 者 新 微 架 构 的 处 理 器 。 在 本 章 后 续 的 讨 
论 中 ， 我 们 将 描述 Intel Haswell 微 架构 的 构造 。 该 微 架 构 用 于 第 四 代 Core i7, i5 和 i3 系列 
处 理 器 。Intel 之 前 的 微 架 构 和 Haswell 相似 ， 包 括 Nehalem, Sandy Bridge fil Ivy Bridge ( 换 
言 之 ， 第 一 代 、 第 二 代 和 第 三 代 Core i7, i5, 13 系列 处 理 器 )， 但 Haswell 在 性 能 和 减少 功 
耗 上 有 显著 的 增强 。 


21.1.1 多 核 处 理 器 概述 


要 探讨 Haswell 或 任何 现代 微 架 构 的 架构 细节 ， 最 好 使 用 多 核 处 理 器 框架 。 图 21-1 显 
示 了 一 个 基于 Haswell 的 四 核 处 理 器 的 简化 框图 。 请 注意 每 个 CPU 核心 包含 一 级 (L1) 指 
令 缓 存 和 数据 缓存 。 它 们 被 标注 为 I-Cache 和 D-Cache。 顾 名 思 义 ， 这 些 内 存 缓存 包含 了 
CPU 核心 可 以 快速 访问 的 指令 和 数据 。 每 个 CPU 核心 还 包含 了 二 级 (L2) 统一 缓存 ， 用 于 
同时 保存 指令 和 数据 。L1 和 L2 缓存 使 得 CPU 核心 在 无 须 访问 更 高 级 的 L3 共享 缓存 或 主 内 
存 的 情况 下 ， 并 发 地 执行 独立 的 运算 。 

如 果 CPU 核心 请 求 的 指令 或 者 数据 不 在 它 的 Ll 或 者 L2 缓存 ， 那 它 就 必须 从 L3 缓存 或 
主 存 载 人 。L3 缓存 被 分 成 了 许多 切片 。 每 一 个 切片 由 一 个 逻辑 控制 器 和 一 个 数据 阵列 组 成 。 
逻辑 控制 器 管理 其 相应 的 数据 阵列 的 访问 。 它 也 负责 处 理 缓存 未 命中 (cache miss) 和 主 存 写 
A ( 当 请 求 的 数据 不 在 缓存 中 并 且 必 须 从 主 存 中 载 和 人 时， 缓存 未 命中 就 发 生 了 )。 数 据 阵 列 包 
括 实 际 的 缓存 数据 ， 被 组 织 为 64 字 节 宽 的 数据 包 ， 称 为 缓存 行 (Cache Line)。 环 形 互 联 (Ring 
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Interconnect) 是 一 个 高 速 的 内 部 总 线 ， 用 于 CPU 多 个 核心 、L3 缓存 、 图 形 单元 和 系统 代理 
(System Agent) 之 间 传 递 数 据 。 系 统 代理 负责 处 理 器 、 外 部 数据 总 线 和 主 存 之 间 的 数据 交换 。 


L3 共 享 缓存 
(大 小 可 变 ) 





图 21-1 基于 Haswe 开 四 核 处 理 器 的 简化 框图 625 


21.1.2 ” 微 架 构 流 水 线 功 能 


程序 执行 过 程 中 ， 一 个 CPU 核心 执行 五 个 基本 的 指令 操作 : BUB (fetch)， 解 码 ， 分 发 ， 
执行 ， 老 化 (retire)。 这 些 操作 的 细节 是 由 CPU 微 架 构 流 水 线 的 功能 决定 的 。 图 21-2 显示 
了 基于 Haswell 处 理 器 的 CPU 流水 线 功能 的 流程 框图 。 

取 指 令 和 预 解码 单元 从 工 1 指令 缓存 拾取 指令 ， 并且 开始 为 执行 这 些 指 令 做 准备 。 这 一 
阶段 的 步骤 包括 : 指令 长 度 解析 ，x86 指令 前 级 解码 ， 为 协助 后 续 的 解码 器 做 性 质 标记 。 取 
指令 和 预 解码 单元 还 负责 持续 地 为 指令 队列 提供 指令 流 (指令 队列 排队 指令 ， 以 提供 给 指令 
解码 器 ) o 

指令 解码 器 将 x86 指令 翻译 成 微 操 作 ( micro-ops)。 微 操作 是 一 种 独立 的 低级 指令 ， 最 
终 会 被 执行 引擎 中 的 一 个 执行 单元 所 执行 (下 一 节 讨 论 执 行 单元 )。 解 码 器 为 一 条 x86 指令 
所 产生 的 微 操 作 的 数目 ， 随 这 条 指令 的 复杂 度 而 变化 。 简 单 的 寄存 器 到 寄存 器 指令 ， 例 如 
add eax, edx 和 pxor xmm0, xmm0 被 解码 为 一 个 单一 的 微 操 作 。 完 成 更 复杂 操作 的 指令 ， 例 
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如 idiv rcx 和 vdivpd ymm0, ymml, ymm2, ， 需 要 多 条 微 操 作 。 将 x86 指令 翻译 成 微 操 作 ， 带 
来 了 一 些 架构 上 和 性 能 上 的 好 处 ， 包 括 指 令 级 的 并 行 和 乱 序 执行 。 





图 21-2 Haswell CPU 核心 流水 线 功能 


指令 解码 器 还 完成 了 两 个 辅助 操作 ， 能 提高 流水 线 带 宽 的 利用 率 。 第 一 个 被 称 为 微 融合 
(micro-fusion)， 即 将 来 自 同一 x86 指令 的 多 个 简单 微 操 作 合并 为 一 个 单一 的 复杂 微 操 作 。 微 
融合 指令 的 例子 包括 内 存 存 储 (mov [ebx+16], eax) 和 使 用 内 存 操作 数 的 计算 指令 (sub r9, 
qword ptr [rbp+48])。 对 于 融合 后 的 复杂 微 操作 ， 执 行 引 警 会 分 发 多 次 (每 次 分 发 执行 一 个 
来 自 原始 指令 的 简单 微 操 作 )。 指 令 解 码 器 的 第 二 个 辅助 操作 被 称 为 宏 融 合 。 宏 融合 将 某 些 
常用 的 x86 指令 对 结合 成 一 个 单一 的 微 操作 。 宏 融合 指令 对 的 例子 包括 很 多 (但 不 是 所 有 ) 
紧 跟 add、and、cmp、dec、inc、sub 或 test 指令 之 后 的 条 件 转移 指令 。 

来 自 指令 解码 器 的 微 操 作 被 转移 到 微 操 作 指令 队列 ， 并 最 终 被 调度 器 分 发 。 必 要 时 ， 它 
们 也 会 被 缓存 到 已 解码 指令 缓存 。 微 操作 指令 队列 也 被 用 于 循环 流 检 测 器 〈 识 别 和 锁定 微 操 
作 指 令 队 列 中 小 的 程序 循环 )。 这 样 可 以 提高 性 能 ， 因 为 小 的 循环 能 重复 执行 ， 而 无 须 额外 
的 取 指令 、 解 码 和 微 操 作 缓 存 读 取 。 

分 配 和 重 命名 块 承担 着 桥梁 角色 ， 把 按 序 的 前 端 流 水 线 和 乱 序 的 调度 器 及 执行 引擎 连 
接 起 来 。 它 给 微 操 作 按 需 分 配 内 部 缓冲 区 。 它 还 会 消除 微 操 作 之 间 的 假 依赖 ， 以 便于 乱 序 执 
行 。( 当 两 个 微 操作 需要 同时 访问 相同 硬件 资源 的 不 同 版 本 时 ， 就 会 导致 一 个 假 依赖 。) 而 后 
微 操 作 会 被 转移 到 调度 器 。 该 单元 将 微 操作 入 队 ， 直 到 所 有 需要 的 源 操作 数 都 可 用 。 人 然后 它 
将 准备 好 的 微 操作 分 发 到 适当 执行 引擎 的 执行 单元 。 老 化 单元 按照 程序 原始 指令 顺序 ， 移 除 
已 经 执行 完成 的 微 操 作 。 它 还 会 激发 在 微 指 令 执行 中 可 能 发 生 的 处 理 器 异常 。 
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最 后 ， 分 支 预测 单元 在 当前 代码 执行 模式 的 基础 上 ， 预 测 最 有 可 能 执行 的 分 支 目 标 ， 
帮助 选择 下 一 组 要 执行 的 指令 。 分 支 目 标 只 是 一 个 转移 控制 指令 的 目标 操作 数 ， 例 如 jec, 
jmp 、call 或 者 ret。 分 支 预测 单元 使 得 CPU 内 核 在 分 支 被 决定 之 前 ， 能 够 投机 地 执行 一 条 指 
今 的 微 操作 。 必 要 时 ，CPU 内 核 按 已 解码 指令 缓存 、L1 指令 缓存 、L2 统一 缓存 、L3 缓存 
和 主 存 的 顺序 来 搜索 要 执行 的 指令 。 


21.1.3 ”执行 引擎 


执行 引擎 执行 调度 器 传 给 它 的 微 操作 。 图 21-3 显示 了 Haswell CPU 内 核 执行 引擎 的 概 
要 框图 。 每 个 分 发 端口 下 面 的 矩形 方 框 ， 表 示 了 微 操 作 的 执行 单元 。 请 注意 ， 调 度 器 端口 中 
有 四 个 是 支持 计算 功能 的 执行 单元 ， 包 括 整数 、 浮 点 数 和 SIMD 算术 运算 。 剩 余 的 四 个 端口 
支持 内 存 加 载 和 存储 操作 。 
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图 21-3 Hanswell CPU 内 核 执行 引擎 及 其 执行 单元 


每 个 执行 单元 完成 一 个 特定 的 计算 或 者 操作 。 例 如 ,“ 整 数 ALU 和 移 位 ”执行 单元 实现 
了 整数 算术 和 移 位 操作 。”“ SIMD 整数 ALU” 执 行 单元 被 设计 为 完成 SIMD 整数 算术 运算 。 
请 注意 ， 执 行 引擎 包含 某 些 执行 单元 的 多 个 实例 。 这 使 得 执行 引擎 可 以 并 发 地 执行 多 个 特定 
的 微 操 作 。 例 如 ， 执 行 引擎 可 以 使 用 “ SIMD 人 逻辑 ”执行 单元 并 发 地 执行 三 个 独立 的 SIMD 
逻辑 操作 。 

Haswell 调度 器 可 以 在 每 个 周期 给 执行 引擎 分 发 最 多 八 个 微 操作 (每 个 端口 一 个 ) ALF 
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引擎 ， 包 括 调度 器 、 执 行 引 擎 和 老化 单元 ， 最 多 可 以 支持 192 个 同时 运行 (in-flight) 的 微 操 
作 。 表 21-1 归纳 了 Intel 最 近 一 些 年 的 微 架 构 的 关键 缓冲 区 大 小 。 


表 21-1 微 架 构 关键 缓冲 区 大 小 的 比较 


参数 Nehalem Sandy Bridge Haswell 
分 发 端口 6 6 8 
同时 运行 的 微 操作 128 168 192 
同时 运行 的 加 载 操 作 48 64 72 
同时 运行 的 存储 操作 32 36 42 
调度 器 实体 (Entries) 36 54 60 


21.2 ”优化 汇编 语言 代码 

本 节 讨 论 一 些 优化 x86 汇编 语言 代码 的 简单 编程 技巧 。 建 议 把 这 些 技巧 应 用 在 运行 于 
Intel 最 新 微 架 构 (包括 Haswell, Sandy Bridge 和 Nehalem) 的 代码 中 。 大 多 数 技巧 同样 适 
用 于 更 早 的 微 架 构 。 可 以 把 优化 技巧 和 辅助 性 的 指导 方针 分 为 五 大 类 : 

e 基本 优化 

e 浮 点 算术 

e 程序 分 文 

o 数据 对 齐 

e SIMD 技巧 

需要 说 记 的 一 个 要 点 是 ， 接 下 来 的 所 有 优化 技巧 都 必须 谨慎 使 用 。 例 如 ， 如 果 仅 为 避免 
使 用 不 推荐 的 指令 形式 一 次 ， 就 增加 多 条 额外 的 push 和 pop 指令 ， 那 么 是 没有 意义 的 。 此 
外 ， 本 章 介绍 的 所 有 优化 技巧 ， 都 无 法 补救 一 个 不 适当 的 或 者 设计 很 差 的 算法 。《 Intel 64 和 
IA-32 架构 优化 参考 手册 》 包含 本 节 讨 论 的 优化 技巧 的 更 详细 内 容 。 


21.2.1 基本 优化 

下 面 列 出 了 一 些 常用 于 提高 x86 汇编 语言 代码 性 能 的 基本 优化 技巧 : 

e 尺 可 能 使 用 test 指令 ， 而 不 是 cmp 指令 。 

e 尺 可 能 避免 使 用 内 存 与 立即 数 形式 的 cmp Ail test 指令 (例如 ，cmp dword ptr [ebp+16]， 
100 或 者 test byte ptr [r12], 0fh)。 最 好 先 将 内 存 值 载 人 寄存器， 然后 使 用 寄存 器 与 立即 
数 形式 的 cmp 和 test 指令 (例如 ，mov eax, dword ptr [ebp+16]， 接 着 cmp eax, 100 )。 

e 使 用 add 或 者 sub 指令 ， 而 不 是 inc 或 者 dec 指令 ， 特 别 是 在 性 能 关键 的 循环 中 。 后 
面 的 两 个 指令 不 会 更 新 EFLAGS 寄存 器 中 的 所 有 标志 位 ， 通 常会 慢 一 些 。 

e 使 用 xor, sub, 、pxor、xorps 等 指令 将 一 个 寄存 器 置 0， 而 不 是 用 数据 传送 指令 。 例 
如 ，xor eax, eax 和 xorps xmm0, xmm0 HE mov eax, 0 和 movaps xmm0, xmmword ptr 
[XmmZero] 要 好 。 

e 在 有 操作 数 宽度 前 组 的 指令 中 ， 避 免 使 用 16 位 立即 数 ， 而 应 该 使 用 对 应 的 32 位 或 
者 8 位 立即 数 。 例 如 ， 使 用 mov edx, 42 而 不 是 mov dx, 42. 

e 展开 (或 者 部 分 展开 ) 循环 次 数 是 常数 的 小 循环 。 

e 将 在 计算 中 多 次 使 用 的 内 存 值 载 人 寄存 器 。 如 果 一 个 内 存 值 只 在 一 次 计算 中 用 到 ， 
用 寄存 器 到 内 存 形式 的 计算 指令 。 表 21-2 显示 了 几 个 例子 。 
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表 21-2 一 次 使 用 和 多 次 使 用 内 存 值 的 指令 形式 


寄存 器 到 内 存 形式 (一 次 使 用 的 数据 ) 载 入 和 寄存 器 到 寄存 器 形式 ( 多 次 使 用 的 数据 ) 
add edx,dword ptr [x] mov eax,dword ptr [x] 
add edx,eax 
and rax,qword ptr [rbx--16] mov rcx, [rbx--16] 
and rax,rcx 
cmp ecx,dword ptr [n] mov eax,dword ptr [n] 


cmp ecx,eax 
mulpd xmm0,xmmword ptr [rdx] movapd xmm1,xmmword ptr [rdx] 


mulpd xmm0,xmml 630 


下 列 优化 技巧 适用 于 x86-64 代码 : 

e 当 操 作 数 是 32 位 时 ， 使 用 32 位 通用 寄存 器 和 指令 形式 。 

e 操作 32 位 宽 数值 时 ， 优 先 使 用 通用 寄存 器 EAX, EBX, ECX, EDX, ESI fil EDI, 
而 不 是 寄存 器 R8D-R15D。 对 于 后 面 的 寄存 器 组 ， 指 令 解 码 要 多 一 个 字 节 。 

e 利用 额外 的 通用 寄存 器 和 SIMD 寄存 器 ， 以 减少 数据 依赖 和 寄存 器 溢出 〈 当 程序 必须 
暂时 地 存储 一 个 寄存 器 的 值 到 内 存 中 ， 为 其 他 计算 腾 出 这 个 寄存 器 的 时 候 ， 寄 存 器 
溢出 就 发 生 了 )o 

e 如 果 不 需要 完整 的 128 位 结果 ， 用 二 操作 数 或 三 操作 数 形式 的 imul 指令 进行 两 个 64 
位 整数 乘法 。 


21.2.2 FARR 


使 用 汇编 语言 进行 浮 点 算术 运算 时 ， 应 考虑 下 面 的 指导 方针 : 

e 在 新 代码 中 使 用 x86-SSE 或 者 x86-AVX 而 不 是 x87 FPU 的 标量 浮 点 指令 。 

e 在 算术 计算 中 ， 尽 可 能 避免 算术 下 溢 和 非 正规 值 。 

e 避免 使 用 非 正规 浮 点 常量 。 

e 如 果 预 知 会 有 多 次 算术 下 滋 ， 考 虑 启用 清洗 到 零 (MXCSR.FZ) 和 非 正 规 为 零 
(MXCSR.DAZ) 模式 。 对 于 如 何 正 确 地 使 用 这 些 模式 ， 第 7 章 中 有 更 多 的 信息 。 


21.2.3 ”程序 分 支 


程序 分 支 指令 如 jmp、call 和 ret 在 执行 时 是 潜在 的 耗 时 操作 ， 因 为 它们 可 能 影响 前 端 


流水 线 和 内 部 缓存 的 内 容 。 考 虑 到 使 用 的 频率 ， 条 件 跳 转 指 令 jec 也 可 能 带 来 性 能 问题 。 下 
面 的 优化 技巧 能 最 小 化 分 支 指令 对 性 能 的 影响 ， 并 且 提 高 分 支 预测 单元 的 准确 性 : 


e 组 织 代 码 ， 尽 量 少 使 用 分 支 指令 。 

e 使 用 setcc 和 cmovec 指令 ， 以 消除 不 可 预测 的 数据 相关 的 分 支 。 631 
e 在 性 能 关键 的 循环 中 ， 对 齐 分 支 目标 的 边界 到 16 字 节 。 

e 将 不 太 可 能 执行 的 条 件 代 码 (例如 错误 处 理 代码 ) 移 到 另外 的 程序 段 或 内 存 页 。 

当 预 测 一 个 分 支 语句 的 目标 时 ， 分 支 预测 单元 采用 静态 和 动态 技术 。 当 包含 条 件 跳 转 指 


令 的 代码 能 够 组 织 成 与 分 支 预测 单元 的 静态 预测 算法 一 致 时 ， 那 么 错误 的 分 支 预测 就 可 以 被 
最 小 化 : 


e 当 贯 穿 (fall-through) 代码 可 能 被 执行 时 ， 使 用 向 前 条 件 跳 转 。 
e 当 贯 穿 代码 不 可 能 被 执行 时 ， 使 用 向 后 条 件 跳 转 。 
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向 前 条 件 跳 转 方法 经 常用 在 检查 函数 参数 的 代码 块 中 。 向 后 条 件 跳 转 技术 可 以 用 在 程序 
循环 代码 块 的 底部 ( 紧 跟 着 一 个 计数 器 更 新 或 者 其 他 循环 结束 判断 )。 清 单 21-1 包含 了 一 小 
BOCAH ri PAL, RAN TR PE SCRE Se ATTY o 


清单 21-1 ”使 用 符合 静态 分 支 预测 算法 的 条 件 跳 转 指令 


.model flat,c 
.code 


; extern "C" bool CalcResult (double* des, const double* src, int n); 


CalcResult proc 


push ebp 
mov ebp,esp 
push esi 
push edi 
; 本 段 代 码 使 用 向 前 条 件 跳 转 ， 因 为 贯穿 的 情况 更 可 能 发 生 
mov edi, [ebp+8] ;edi - des 
test edi,ofh 
jnz Error ;如 果 des 没有 对 齐 则 跳 转 
mov esi, [ebp+12] ;esi -src 
test esi,Ofh 
jnz Error ;如 果 src 没有 对 齐 则 跳 转 
mov ecx, [ebp+16] ecx =n 
cmp ecx,2 
jl Error ;如 果 n«2 则 跳 转 
test ecx,1 
jnz Error ;如 果 n%21=0 则 跳 转 


; 简单 的 数组 处 理 循环 
XOI eax,eax 

@@: movapd xmm0,xmmword ptr [esi«eax] 
mulpd xmmo,xmmo 
movapd xmmword ptr [edi«eax],xmmo 


; 本 段 代码 使 用 向 后 条 件 跳 转 ， 因 为 贯穿 的 情况 更 不 可 能 发 生 
add eax,16 
sub ecx,2 
jnz GB 


mov eax,1 
pop edi 
pop esi 
pop ebp 
ret 


; 错误 处 理 代 码 ， 不 太 可 能 执行 
Error: xor eax,eax 

pop edi 

pop esi 

pop ebp 

ret 
CalcResult endp 

end 


21.2.4 数据 对 齐 
本 书 已 经 多 次 提 及 正确 的 数据 对 齐 的 重要 性 ， 这 个 问题 怎么 强调 也 不 过 分 。 操 作对 齐 错 
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误 的 数据 时 ， 可 能 导致 处 理 器 花费 额外 的 内 存 周期 和 执行 更 多 微 指 令 ， 这 将 会 给 整个 系统 的 
性 能 带 来 负面 影响 。 下 面 的 数据 对 齐 实践 应 该 被 认为 是 普遍 真理 并 一 直 遵 守 : 

e 将 多 字 节 整数 和 浮 点 数 对 齐 到 自然 的 边界 。 

e 将 64、128 和 256 位 宽 的 组 合 数据 对 齐 到 它们 本 身 的 边界 。 

© 必要 时 填补 数据 结构 ， 以 保证 正确 对 齐 。 

e 使 用 恰当 的 编译 器 指令 和 库 消 数 ， 以 对 齐 高 层 代 码 分 配 的 数据 项 。 例 如 ，__declspec 
(align(n)) 指示 符 和 _aligned_malloc 函数 能 用 来 正确 地 对 齐 Visual C++ 函数 中 分 配 的 
数据 项 。 

e 更 多 地 使 用 存储 对 齐 ， 而 不 是 加 载 对 齐 。 633 

下 面 这 些 对 齐 技巧 也 推荐 使 用 : 

e 将 小 数组 和 短 字 符 串 对 齐 安置 在 数据 结构 中 ， 以 避免 缓存 行 分 割 。 

e 评估 不 同 的 数据 布局 对 性 能 的 影响 ， 例 如 数组 结构 与 结构 数组 。 


21.2.5 SIMD 技巧 


在 任何 函数 中 ， 用 x86-SSE fil x86-AVX 计算 资源 时 应 该 考察 下 面 这 些 技巧 是 否 适用 : 

e 消除 寄存 器 依赖 ， 以 利用 执行 引擎 的 多 个 执行 单元 。 

e 用 组 合 的 单 精度 浮 点 数 代替 双 精 度 浮 点 数 。 

e 将 多 次 使 用 的 内 存 操作 数 和 组 合 常量 加 载 到 寄存 器 。 

e. 用 对 齐 的 传送 指令 存储 和 加 载 组 合 数据 ， 例 如 movdqa, movaps, movapd 等 。 

o 用 小 的 数据 块 处 理 SIMD 数组 ， 以 最 大 化 重用 驻 留 缓存 数据 。 

e 在 x86-AVX 代码 中 ,使 用 数据 混合 而 不 是 数据 重组 。 

e 当 需 要 避免 x86-AVX 到 x86-SSE 状态 迁移 的 损失 时 ， 使 用 vzeroupper 指令 。 

o 使 用 x86-AVX vgather 指令 的 双 字 形式 ， 而 不 是 四 字形 式 。 在 数据 要 用 到 之 前 就 完成 
需要 的 收集 操作 。 

下 面 这 些 实践 可 以 用 于 提高 特定 算法 的 性 能 (进行 SIMD 编码 和 解码 操作 ): 

e 使 用 无 时 态 存储 指令 (例如 movntdqa, movntpd, movntps 等 )， 以 最 小 化 缓存 污染 。 

e 使 用 数据 预 取 指 令 (例如 prefetcht0 、prefetchnta 等 )， 以 通知 处 理 器 预期 要 使 用 的 数 
据 项 。 

第 22 章 包 含 了 使 用 无 时 态 (non-temporal) 存储 和 数据 预 取 指 令 的 示例 代码 。 634 


21.3 BS 


本 章 中 ,我 们 考察 了 现代 x86 处 理 器 的 内 部 设施 ， 包 括 多 核 构 造 和 内 部 微 架 构 ， 还 学 习 
了 一 些 有 用 的 技巧 用 于 提高 x86 汇编 语言 代码 的 性 能 。 在 本 书 的 最 后 一 章 ， 我 们 将 通过 一 些 
示例 代码 来 实践 本 章 介 绍 的 高 级 内 容 。 636 
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本 章 将 通过 两 个 示例 程序 来 前 释 x86 汇编 语言 编程 的 一 些 高 级 技巧 。 第 一 个 示例 程序 解 
释 如 何 使 用 无 时 态 (non-temporal) 内 存 存 储 来 加 速 SIMD 处 理 算法 。 第 二 个 示例 程序 介绍 
如 何 用 软件 数据 预 取 加 速 链表 遍历 。 两 个 示例 程序 都 包含 了 x86-32 和 x86-64 两 种 实现 ， 以 
比较 两 个 执行 环境 的 性 能 。 


22.1 时 态 内 存 存储 

oe ee 数据 可 以 分 为 有 时 态 数据 和 无 时 态 数据 。 有 时 态 数据 是 在 短 时 间 
内 被 多 次 访问 的 任意 值 。 有 时 态 数据 的 例子 包括 在 程序 循环 中 被 多 次 引用 的 数组 或 者 数据 结 
构 ， 还 包括 程序 的 代码 。 无 时 态 数据 是 被 访问 一 次 后 不 会 立即 再 次 使 用 的 数据 。 许 多 SIMD 
处 理 算法 的 目标 数组 常常 包含 了 无 时 态 数 据 。 

如 果 缓 存 中 包含 过 多 的 无 时 态 数 据 ， 则 处 理 器 性 能 会 下 降 ， 这 通常 被 称 为 缓存 污染 
(cache pollution)。 理 想 状 态 下 ， 一 个 处 理 器 的 内 存 缓存 只 包含 时 态 数 据 ， 因 为 缓存 只 被 访 
问 一 次 的 数据 项 是 没有 意义 的 。x86-SSE 指令 集 包 括 了 几 个 无 时 态 内 存 存储 指令 ， 程 序 可 以 
用 它们 来 最 小 化 缓存 污染 。 

本 节 的 示例 程序 NonTemporalStore 说 明了 无 时 态 内 存 存储 指令 movntps 的 使 用 (用 无 时 
态 提示 存储 组 合 单 精 度 浮 点 数 )， 还 比较 了 该 指令 与 标准 的 movaps 指令 的 性 能 。 清 单 22-1、 

清单 22-2 和 清单 22-3 包含 了 示例 程序 NonTemporalStore 的 C++ 和 汇编 语言 代码 。 


清单 22-1 NonTemporalStore.cpp 
#include "stdafx.h" 
#include "NonTemporalStore.h" 
#include «math.h» 
#include <malloc.h> 
#include <stdlib.h> 
#include <stddef.h> 


bool CalcResultCpp(float* c, const float* a, const float* b, int n) 


if ((n <= 0) || ((n & 0x3) != 0)) 
return false; 


if (((uintptr_t)a & Oxf) != 0) 
return false; 

if (((uintptr t)b & Oxf) != 0) 
return false; 

if (((uintptr_t)c & Oxf) != 0) 
return false; 


for (int i = 0; i < n; i++) 
c[i] = sqrt(a[i] * a[i] + b[i] * b[i]); 


return true; 


) 


bool CompareResults(const float* ci, const float* c2a, const float*c2b,« 
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int n, bool pf) 
( 


const float epsilon - 1.0e-9f; 
bool compare ok - true; 


for (int i = 0; i < n; i++) 


if (pf) 
printf("X2d - %10.4f %10.4f %10.4f\n", i, ci[i], c2a[i], ~ 


c2b[i]); 


bool bi = fabs(ci[i] - c2a[i]) > epsilon; 
bool b2 = fabs(ci[i] - c2b[i]) > epsilon; 


if (b1 || b2) 
{ 


compare_ok = false; 
if (pf) 
printf("Compare error at index %2d: Xf Xf %f\n", i, ci[i],~ 


c2a[i], c2b[i]); 


} 


} 


return compare_ok; 


void NonTemporalStore(void) 


{ 


const int n = 16; 

const int align = 16; 

float* a = (float*) aligned malloc(n * sizeof(float), align); 
float* b - (float*) aligned malloc(n * sizeof(float), align); 
float* c1 = (float*) aligned malloc(n * sizeof(float), align); 
float* c2a - (float*) aligned malloc(n * sizeof(float), align); 
float* c2b - (float*) aligned malloc(n * sizeof(float), align); 


srand(67); 
for (int i = 0; i < n; i++) 
{ 
a[i] = (float)(rand() X 100); 


b[i] = (float)(rand() X 100); 


} 
CalcResultCpp(ci, a, b, n); 


CalcResultA (c2a, a, b, n); 
CalcResultB (c2b, a, b, n); 


#ifdef WIN64 


const char* platform = "Win64"; 


Helse 


const char* platform = "Win32"; 


#endif 


printf("Results for NonTemporalStore (platform = %s)\n", platform); 
bool rc = CompareResults(ci, c2a, c2b, n, true); 


if (rc) 

printf("Array compare OK\n"); 
else 

printf("Array compare FAILED An"); 


aligned free(a); 
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aligned free(b); 
639 aligned free(c1); 

aligned free(c2a); 

aligned free(c2b); 


} 
int tmain(int argc, _TCHAR* argv[]) 
{ 
NonTemporalStore() ; 
NonTemporalStoreTimed(); 
return 0; 
} 





清单 22-2 NonTemporalStore32 .asm 
IFDEF ASMX86 32 
.model flat,c 
.code 
; _CalcResult32 Macro 


; 下 面 的 宏 包含 了 一 个 简单 的 计算 循环 ， 用 来 比较 指令 movaps 和 movntps 的 性 能 差异 


_CalcResult32 macro MovInstr 


push ebp 
mov ebp,esp 
push ebx 
push edi 

; 加 载 并 检验 参数 
mov edi,[ebp+8] jedi = c 
test edi,Ofh 
jnz Error SMR c 没有 对 齐 则 跳 转 
mov ebx, [ebp+12] jebx = a 
test ebx,0fh 
jnz Error ;如 果 a 没有 对 齐 则 跳 转 
mov edx, [ebp+16] ;edx = b 
test edx,0fh 
jnz Error ;如 果 b 没有 对 齐 则 跳 转 
mov ecx, [ebp«20] jecx = n 
test ecx,ecx 
jle Error ;如 果 n<=0 则 跳 转 
test ecx,3 
jnz Error ;如 果 n41-0 则 跳 转 

; 计算 c[i] = sqrt(a[i] * a[i] + b[i] * b[i]) 
Xor eax,eax ;eax- 数组 偏 移 

align 16 

@@: movaps xmmO,xmmword ptr [ebx+eax] ;xmm0 = a[] 的 值 
movaps xmm1,xmmword ptr [edx+eax] ;xmm1 = b[] 的 值 
mulps xmmo,xmmO ;xmm0 = a[i] * a[i] 
mulps xmm1,xmm1 ;xmm1 = b[i] * b[i] 
addps xmmo,xmmi ;xmm0 = 和 
sqrtps xmm0,xmmO ;xmm0 = 最 终结 果 
MovInstr xmmword ptr [edi+eax],xmm0 ;将 最 终结 果 保 存 到 c 
add eax,16 ;更 新 偏 移 
sub ecx,4 ;更 新 计数 值 


jnz @B 


BA EMM FE 





mov eax,1 
pop edi 
pop ebx 
pop ebp 
ret 

Error: xor eax,eax 

pop ebx 

pop ebp 

ret 

endm 
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;设置 成 功 返 回 码 


;设置 失败 返回 码 


;extern bool CalcResultA (float* c, const float* a, const float* b, int n) 


CalcResultA proc 
_CalcResult32 movaps 
CalcResultA endp 


;extern bool CalcResultB (float* c, const float* a, const float* b, int n) 


CalcResultB proc 
_CalcResult32 movntps 
CalcResultB endp 
ENDIF 
end 


清单 22-3 NonTemporalStore64 .asm 


IFDEF ASMX86 64 
.code 


; _CalcResult64 Macro 





; 下 面 的 安 包 含 了 一 个 简单 的 计算 循环 ， 用 来 比较 指令 movaps 和 movntps 的 性 能 差异 


_CalcResult64 macro MovInstr 


; 加 载 并 检验 参数 
test rcx,0fh 
jnz Error 
test rdx,Ofh 
jnz Error 
test r8,0fh 
jnz Error 


test r9d,r9d 
jle Error 
test r9d,3 
jnz Error 


;如 果 c 没有 对 齐 则 跳 转 
;如 果 a 没有 对 齐 则 跳 转 
;如 果 b 没有 对 齐 则 跳 转 


;如 果 n <= 0 则 跳 转 
;如 果 n X 4 != 0 则 跳 转 


; 计算 c[i] = sqrt(a[i] * a[i] + b[i] * b[i]) 


XOI eax,eax 
align 16 

QQ: movaps xmmO,xmmword ptr [rdx+rax] 
movaps xmmi,xmmword ptr [r8+rax] 
mulps xmmo,xmmo 
mulps xmm1,xmmi 
addps xmmo,xmmi 
sqrtps xmmO,xmmo 
MovInstr xmmword ptr [rcx«rax],xmmo 


add rax,16 
sub r9d,4 
jnz @B 


;eax = 数组 偏 移 


;xmm0 = a[] 的 值 
;xmm1 = b[] 的 值 


;xmm0 = a[i] * a[i] 
;xmmi = b[i] * b[i] 
;xmm0 = 和 


;xmmO " 最 终结 果 
;将 最 终结 果 保 存 到 c 


;更 新 偏 移 
;更 新 计数 值 
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mov eax,1 ;设置 成 功 返 回 码 
ret 


加 载 并 检验 参数 
Error: xor eax,eax ;设置 失败 返回 码 
ret 
endm 


;extern bool CalcResultA (float* c, const float* a, const float* b, int n) 
CalcResultA proc 

_CalcResult64 movaps 
CalcResultA endp 


;extern bool CalcResultB (float* c, const float* a, const float* b, int n) 
CalcResultB proc 
. CalcResult64 movntps 
CalcResultB  endp 
ENDIF 
end 


文件 NonTemporalStore.cpp (清单 22-1 ) 的 顶部 是 一 个 名 为 CalcResultCpp 的 函数 。 这 个 
函数 对 两 个 单 精度 浮 点 数组 (a 和 b) 的 元 素 计算 一 个 简单 的 算术 值 。 然 后 将 结果 写 人 目标 数 
组 c。 示 例 中 的 汇编 语言 函数 计算 相同 的 结果 。 之 后 的 函数 CompareResults 用 来 确认 C++ 和 
汇编 语言 输出 的 数组 是 相等 的 。 函 数 NonTemporalStore 分 配 和 初始 化 测试 数组 ， 然 后 调用 上 
ÁY CalcResultCpp 函数 。 接 着 调用 相应 的 汇编 语言 图 数 CalcResultA_ #il CalcResultB (本 节 
后 面 会 描述 这 两 个 也 数 )。 最 后 比较 这 三 个 计算 函数 输出 的 数组 是 否 存 在 差异 。 

示例 程序 NonTemporalStore 包含 了 计算 函数 CalcResultA 和 CalcResultB_ 的 x86-32 和 x86-64 
实现 。 清 单 22-2 列 出 了 x86-32 版 本 的 汇编 语言 源 代码 。 在 文件 NonTemporalStore32_.asm 靠近 底 
部 的 位 置 是 函数 CalcResultA_ 和 CalcResultB_ 的 定义 。 这 些 函 数 使 用 了 一 个 名 为 _CalcResult32 的 
宏 ， 该 宏 生成 了 计算 代码 。 请 注意 每 次 调用 _CalcResult32 宏 时 ， 移 动 指令 使 用 了 不 同 的 参数 值 。 

文件 NonTemporalStore32 .asm 的 顶部 定义 了 宏 _CalcResult32。 参 数 验 证 之 后 ， 是 一 
段 使 用 x86-SSE 组 合 单 精度 浮 点 运算 的 指令 ,计算 cli] = sqrt(a[i] * afi] + b[i] * bli] 
4a] MovInstr xmmword ptr[edi+eax], xmm0 使 用 movaps 或 者 movntps 指令 (取决 于 宏和 参数 
Movinstr 的 值 )， 将 最 终结 果 保 存 到 目标 数组 c。 这 意味 着 函数 CalcResultA 和 CalcResultB_ 
执行 的 代码 是 完全 相同 的 ， 除 了 将 结果 存 人 目标 数组 的 指令 。 

清单 22-3 列 出 了 汇编 语言 文件 NonTemporalStore64_.asm 的 源 代 码 。 在 组 织 和 逻辑 上 ， 
CalcResultA 和 CalcResultB 的 x86-64 实现 与 其 相对 应 的 x86-32 实现 相似 。 宏 _CalcResult64 
也 使 用 了 与 宏 _CalcResult32 相同 的 x86-SSE 运算 指令 。 

请 注意 除 end 编 译 指 令 之 外 ， 文 件 NonTemporalStore32 .asm 和 NonTemporalStore64 . 
asm 中 所 有 的 语句 都 在 编译 指令 IFDEF 之 内 。 在 Visual C++ 每 个 执行 平台 的 属性 页 ，MASM 
预 处 理 符号 ASMx86 32 fll ASMx86 64 会 被 正确 定义 。 这 使 得 示例 程序 NonTemporalStore 
在 Visual C++ 中 的 项 目 可 以 同时 支持 Win32 和 Win64。 附 录 A (可 以 从 http://www.apress. 
com/9781484200650 Fak) 包含 了 如 何 为 Visual C++ 项 目 配置 多 执行 目标 的 更 多 信息 。 

输出 22-1 显示 了 Win32 版 本 NonTemporalStore 的 输出 。Win64 版 本 的 输出 与 之 完全 相同 ， 
除了 平台 和 指标 文件 的 名 字 。( 译 者 注 : 此 处 为 cli] = sqrt(a[i] * afi] + bfi] * blip 的 计算 结果 ， 所 
以 不 论 是 32 位 还 是 64 位 ,不 论 使 用 哪个 传送 指令 ， 结 果 都 是 相同 的 。) 表 22-1 和 表 22-2 显示 
了 两 个 执行 环境 下 的 时 间 度 量 ， 包 含 了 一 些 有 趣 的 结果 。 在 基于 Haswell 的 17-4770 Ail i7-4600U 
处 理 融 上 ， 示 例 程序 NonTemporalStore 使 用 movntps 指令 时 比 相应 的 movaps 指令 快 很 多 。 在 


高 级 主题 编程 455 





基于 Sandy Bridge 的 i3-2310M 上 ， 执 行 时 间 是 相同 的 ( 记 住 ，movntps 指令 只 是 向 处 理 器 提供 
暗示 ， 并 不 确保 性 能 提升 )。x86-32 和 x86-64 版 本 的 函数 CalcResultCpp 在 执行 时 间 上 有 相当 大 
的 不 同 ， 也 令 人 好 奇 。 这 些 数字 背后 的 原因 是 ，Visual C++ 编译 器 为 64 位 版 本 生成 了 使 用 x86- 
SSE SIMD 浮 点 运算 的 代码 ， 而 为 32 位 版 本 生成 了 使 用 x86-SSE 标量 浮 点 运算 的 代码 。 


输出 22-1 示例 程序 NonTemporalStore 
Results for NonTemporalStore (platform = Win32) 


0 = 87.2066 87.2066 87.2066 
1 s 51.4781 51.4781 51.4781 
2 44.1022 44.1022 44.1022 
3- 112.4144 112.4144 112.4144 
4 - 16.5529 16.5529 16.5529 
5 = 53.1507 53.1507 53.1507 
6 - 96.1769 96.1769 96.1769 
7- 125.3196 125.3196 125.3196 
8 91.5478 91.5478 91.5478 
gc 85.8021 85.8021 85.8021 
10 - 63.6003 63.6003 63.6003 
11 = 76.0066 76.0066 76.0066 
12 - 67.1863 67.1863 67.1863 
ni 91.2853 91.2853 91.2853 
14 - 96.3172 96.3172 96.3172 


A5 s 27.0185 27.0185 27.0185 
Array compare OK 


Benchmark times saved to file ^ NonTemporalStore32.csv 


表 22-1 x86-32 函数 CalcResultCpp, CalcResultA_ #1 CalcResultB_ 
在 n= 1 000 000 时 平均 执行 时 间 (单位 : 微 秒 ) 


CPU CalcResultCpp CalcResultA (movaps) CalcResultB (movntps) 
Intel Core i7-4770 1864 572 468 
Intel Core i7-4600U 2377 812 595 
Intel Core i3-2310M 5145 1707 1702 


表 22-2 x86-64 函数 CalcResultCpp, CalcResultA #1 CalcResultB_ 
在 n= 1 000 000 时 平均 执行 时 间 (单位 : 微 秒 ) 


CPU CalcResultCpp CalcResultA_(movaps) CalcResultB (movntps) 
Intel Core i7-4770 585 572 468 
Intel Core i7-4600U 776 768 583 
Intel Core i3-2310M 1714 1707 1702 
22.2 数据 预 取 


应 用 程序 也 可 以 使 用 prefetch ( 预 取 数 据 到 缓存 ) 指令 来 提高 某 些 算法 的 性 能 。 该 指令 将 预 
期 要 使 用 的 数据 预 装 载 到 处 理 器 的 缓存 层级 。 有 两 种 基本 的 prefetch 指令 形式 。 第 一 种 形式 
(prefetcht0 ) 预 装载 时 态 数据 到 处 理 器 缓存 的 每 个 层级 。 第 二 种 形式 (prefetchnta) 预 装 载 无 时 态 
数据 到 L2 缓存 ， 并 且 可 以 使 缓存 污染 最 小 化 。 需 要 注意 的 是 ， 这 两 种 形式 的 prefetch 指令 只 是 
暗示 处 理 器 程序 预期 要 用 的 数据 。 处 理 器 可 以 选择 执行 数据 预 取 操作 ， 也 可 以 忽略 该 暗示 。 

预 取 指 令 适 用 于 多 种 数据 结构 ， 包 链接 到 下 一 个 节点 Nui 
括 大 数组 和 链表 。 链 表 是 一 个 按 序 组 织 E 
的 节点 集合 。 每 个 节点 包括 数据 段 和 一 已 数据 4 | 数据 ， 
个 或 多 个 指针 (或 链接 ) 指向 它 的 相 邻 节 节点 
Kio PS 22-1 列举 了 一 个 简单 的 链表 。 因 图 22-1 简单 链表 
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为 链表 的 大 小 可 以 按 数据 存储 的 需求 增长 和 缩小 (例如 节点 可 以 添加 和 删除 ) 。 链 表 的 一 个 
缺点 是 节点 通常 不 存储 在 连续 分 配 的 内 存 块 中 ， 这 导致 遍历 链表 的 时 候 ， 可 能 花 较 多 访问 
时 间 。 

下 一 个 示例 程序 LinkedListPrefetch 包含 了 遍历 链表 的 x86-32 Fil x86-64 函数 ， 有 使 
用 和 没有 使 用 prefetchnta 指令 两 种 情况 。 清 单 22-4 和 清单 22-5 显示 了 示例 程序 Linked- 
ListPrefetch 的 C++ 和 汇编 语言 头 文件 。 相 应 的 源 代 码 显示 在 清单 22-6 到 清单 22-8 中 。 


清单 22-4 LinkedListPrefetch.h 
#pragma once 
#include "MiscDefs.h" 


// 该 结构 必须 和 LinkedListPrefetch.inc 中 对 应 的 结构 定义 匹配 
typedef struct llnode 
{ 


double ValA[4]; 
double ValB[4]; 
double Valc[4]; 
double ValD[4]; 
Uint8 FreeSpace[376]; 


llnode* Link; 
#ifndef WIN64 
Uint8 Pad[4]; 
#endif 
} LlNode; 
extern void LlTraverseCpp(LlNode* p); 
extern LlNode* LlCreate(int num nodes); 
extern bool LlCompare(int num nodes, LlNode* 11, LlNode* 12, LlNode* 13,« 


int* node fail); 


extern "C" void LlTraverseA (LlNode* p); 
extern "C" void LlTraverseB (LlNode* p); 


extern void LinkedListPrefetchTimed(void) ; 


清单 22-5 LinkedListPrefetch.inc 
; 该 结构 必须 和 LinkedListPrefetch.h 中 对 应 的 结构 定义 匹配 


LlNode struct 


ValA real8 4 dup(?) 
ValB real8 4 dup(?) 
ValC real8 4 dup(?) 
ValD real8 4 dup(?) 


FreeSpace byte 376 dup(?) 


IFDEF ASMX86 32 


Link dword ? 

Pad byte 4 dup(?) 
ENDIF 

IFDEF ASMX86 64 

Link qword ? 

ENDIF 


LlNode ends 
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清单 22-6 LinkedListPrefetch.cpp 


#include "stdafx.h" 

#include "LinkedListPrefetch.h" 
#include «stdlib.h» 

#include «math.h» 

stinclude «stddef.h» 


bool LlCompare(int num nodes, LlNode* 11, LlNode* 12, LlNode* 13, int*= 
node fail) 


{ 
const double epsilon = 1.0e-9; 
for (int i = 0; i « num nodes; i++) 
{ 
*node fail = i; 
if ((11 == NULL) || (12 == NULL) || (13 == NULL)) 
return false; 
for (int j = 0; j « 4; j++) 
bool b12 c = fabs(11->ValC[j] - 12-»ValC[j]) > epsilon; 
bool bi3 c = fabs(11->ValC[j] - 13-»ValC[j]) > epsilon; 
if (b12 c || b13 c) 
return false; 
bool b12 d = fabs(11->ValD[j] - 12-»ValD[j]) > epsilon; 
bool b13 d = fabs(11->ValD[j] - 13-»ValD[j]) > epsilon; 
if (b12 d || b13 d) 
return false; 
) 
11 = 11->Link; 
12 = 12->Link; 
13 = 13->Link; 
} 
*node_fail = -2; 
if ((11 != NULL) || (12 != NULL) || (13 != NULL)) 
return false; 
*node_fail = -1; 
return true; 
} 
void LlPrint(LlNode* p, FILE* fp, const char* msg) 
( 


int i = 0; 
const char* fs = "%14.61f %14.61f %14.61f %14.61f\n"; 


if (msg !- NULL) 
fprintf(fp, "%s\n", msg); 


while (p != NULL) 
fprintf(fp, "AnLlNode %d [ox%p]\n", i, p); 
fprintf(fp, " ValA: "); 
fprintf(fp, fs, p-»ValA[0], p->ValA[1], p-»ValA[2], p-»ValA[3]); 


fprintf(fp, " ValB: "); 
fprintf(fp, fs, p->ValB[0], p-»ValB[1], p-»ValB[2], p-»ValB[3]); 


fprintf(fp, " ValC: "); 
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} 





fprintf(fp, fs, p-»ValC[0], p-»ValC[1], p-»ValC[2], p-»ValC[3]); 


fprintf(fp, " ValD: "); 

fprintf(fp, fs, p->ValD[0], p-»ValD[1], p-»ValD[2], p-»ValD[3]); 
i++; 

p = p->Link; 


LlNode* LlCreate(int num nodes) 


{ 


) 


LlNode* first - NULL; 
LlNode* last - NULL; 


srand(83); 
for (int i - 0; i « num nodes; i++) 
( 
LlNode* p = (LlNode*) aligned malloc(sizeof(LlNode), 64); 
p-»Link - NULL; 
if (i = 0) 
first = last = p; 
else 
last->Link = p; 
last = p; 
} 
for (int i = 0; i < 4; i++) 
{ 
p->ValA[i] = rand() % 500 + 1; 
p->ValB[i] = rand() % 500 + 1; 
p->ValC[i] = 0; 
p->ValD[i] = 0; 
} 


} 


return first; 


void LlTraverseCpp(LlNode* p) 


{ 


while (p !- NULL) 


for (int i = 0; i < 4; i++) 
{ 
p->ValC[i] = sqrt(p->ValA[i] * p->ValA[i] + p-»ValB[i] *~ 


p->ValB[i]); 


p-»ValD[i] 


sqrt(p->ValA[i] / p-»ValB[i] + p-»ValB[i] /~ 


p-»ValA[i]); 
} 


} 


p = p->Link; 


void LinkedListPrefetch(void) 


{ 


const int num_nodes = 8; 

LlNode* listi = LlCreate(num nodes); 
LlNode* list2a = LlCreate(num nodes); 
LlNode* list2b - LlCreate(num nodes); 


# 22 
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#ifdef WIN64 
const char* platform = "X86-64"; 
size t sizeof ll node - sizeof(LlNode); 
const char* fn = " LinkedListPrefetchResults64.txt"; 


itelse 

const char* platform - "X86-32"; 

size t sizeof ll node - sizeof(LlNode); 

const char* fn = " LinkedListPrefetchResults32.txt"; 
#endif 


printf("\nResults for LinkedListPrefetch\n") ; 
printf("Platform target: %s\n", platform); 
printf("sizeof(LlNode): %d\n", sizeof 1l node); 
printf("LlNode member offsets in"); 


printf(" ValA: %d\n", offsetof(LlNode, ValA)); 
printf(" ValB: *dNn", offsetof(LlNode, ValB)); 
printf(" ValC: %d\n", offsetof(LlNode, ValC)); 
printf(" ValD: *dNn", offsetof(LlNode, ValD)); 
printf(" FreeSpace: %d\n", offsetof(LlNode, FreeSpace)); 
printf(" Link: %d\n", offsetof(LlNode, Link)); 


printf("\n"); 

LlTraverseCpp(list1) ; 
LlTraverseA_(list2a) ; 
LlTraverseB (list2b); 


int node_fail; 


if (!LlCompare(num nodes, listi, list2a, list2b, &node_fail)) 


printf("\nLinked list compare FAILED - node fail = %d\n", = 


node fail); 
else 
printf("\nLinked list compare OK\n"); 


FILE* fp; 
if (fopen s(&fp, fn, "wt") == 0) 


LlPrint(listi, fp, "\n----- listi ----- "a 
LlPrint(list2a, fp, "Wn ----- list2a ----- we 
LlIPrint(listab, fp, "Wn ----- list2b ----- ys 
fclose(fp); 


printf("\nLinked list results saved to file %s\n", fn); 


} 


int tmain(int argc, _TCHAR* argv[]) 
{ 
LinkedListPrefetch(); 
LinkedListPrefetchTimed() ; 
return 0; 





i858 22-7 LinkedListPrefetch32_.asm 


IFDEF ASMX86 32 
include <LinkedListPrefetch.inc> 
.model flat,c 
.code 


; Macro LlTraverse32 
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;下面 的 宏 生成 链表 遍历 的 代码 ， 如 果 Useprefetch SF’ Y’, NEA prefetchnta 指令 


 LlTraverse32 macro UsePrefetch 


mov eax, [esp+4] ;eax 指向 第 一 个 节点 
test eax,eax 

jz Done ;到 达 链 表 尾 部 则 跳 转 
align 16 

mov ecx, [eax+LlNode.Link] ;ecx 指向 下 一 个 节点 


vmovapd ymmO,ymmword ptr [eax+LlNode.ValA] ;ymmo = ValA 
vmovapd ymmi,ymmword ptr [eax+LlNode.ValB] ;ymm1 = ValB 


IFIDNI «UsePrefetch»,«Y» 


ENDIF 


mov edx,ecx 


test edx,edx ;还 有 其 他 节点 吗 ? 
cmovz edx,eax ;避免 预 取 到 NULL 
prefetchnta [edx] ; 预 取 下 一 个 节点 


; 计算 ValC[i] = sqrt(ValA[i] * ValA[i] + ValB[i] * ValB[i]) 


vmulpd ymm2, ymmo, ymmo ;ymm2 = ValA * ValA 
vmulpd ymm3,ymmi,ymm1 ;ymm3 - ValB * ValB 
vaddpd ymm4, ymm2, ymm3 ;ymm4 = 和 

vsqrtpd ymm5,ymm4 jymm5 = 平方 根 


vmovntpd ymmword ptr [eax«LlNode.ValC],ymm5 ;保存 结果 


; 计算 valD[i] = sqrt(valA[i] / ValB[i] + ValB[i] / ValA[i]); 


Done: 


vdivpd ymm2, ymmo, ymm1 ;ymm2 = ValA / ValB 
vdivpd ymm3,ymmi, ymmo ;ymm3 = ValB / ValA 
vaddpd ymm4, ymm2, ymm3 symm4 = 和 

vsqrtpd ymm5,ymm4 ;ymm5 = 平方 根 
vmovntpd ymmword ptr [eax«LlNode.ValD],ymm5 ;保存 结果 

mov eax,ecx jeax 指向 下 一 个 节点 

test eax,eax 

jnz GB 

vzeroupper 

ret 

endm 


; extern "C" void LlTraverseA (LlNode* first); 
LlTraverseA proc 


 LlTraverse32 n 


LlTraverseA endp 


; extern "C" void LlTraverseB (LlNode* first); 
LlTraverseB proc 


_LlTraverse32 y 


LlTraverseB endp 


ENDIF 


end 








清单 22-8 LinkedListPrefetch64 .asm 





IFDEF ASMX86 64 


include «LinkedListPrefetch.inc» 
.code 


; Macro LlTraverse64 


EZ GE 461 





; 下 面 的 宏 生成 链表 遍历 的 代码 ， 如 果 UsePrefetch $F’ Y', WJ(SRI prefetchnta 指令 


_LlTraverse64 macro UsePrefetch 


mov rax,rcx ;rax 指向 第 一 个 节点 
test rax,rax 
jz Done ;到 达 链 表 尾 部 则 跳 转 
align 16 

@0:: mov rcx, [rax+LlNode.Link] ;rcx 指向 下 一 个 节点 


vmovapd ymmO,ymmword ptr [rax«LlNode.ValA] ;ymmo = ValA 
vmovapd ymmi,ymmword ptr [rax+LLNode.ValB] ;ymmi = ValB 


IFIDNI «UsePrefetch»,«Y» 
mov rdx,rcx 


test rdx,rdx ;还 有 其 他 节点 吗 ? 
cmovz rdx,rax ;避免 预 取 到 NULL 
prefetchnta [rdx] ; 预 取 下 一 个 节点 

ENDIF 

; 计算 ValC[i] = sqrt(ValA[i] * ValA[i] + ValB[i] * ValB[i]) 
vmulpd ymm2,ymmo, ymmo ;ymm2 = ValA * ValA 
vmulpd ymm3,ymmi,ymmi ;ymm3 - ValB * ValB 
vaddpd ymm4,ymm2 , ymm3 jymm4 = 和 
vsqrtpd ymm5,ymm4 ;ymm5 = 平方 根 


vmovntpd ymmword ptr [rax+LlNode.ValC],ymm5 ;保存 结果 


; 计算 ValD[i] = sqrt(ValA[i] / ValB[i] + ValB[i] / ValA[i]); 


vdivpd ymm2,ymmo, ymm1 ;ymm2 = ValA / ValB 
vdivpd ymm3,ymm1, ymmo ;ymm3 = ValB / ValA 
vaddpd ymm4,ymm2 , ymm3 ;ymm4 = 和 
vsqrtpd ymms,ymm4 ;ymm5 = 平方 根 
vmovntpd ymmword ptr [rax«LlNode.ValD],ymm5 ;保存 结果 
mov rax,rcx ;rax 指向 下 一 个 节点 
test rax,rax 
jnz @B 
vzeroupper 
Done: ret 
endm 


; extern "C" void LlTraverseA (LlNode* first); 
LlTraverseA proc 

 LlTraverse64 n 
LlTraverseA endp 


; extern "C" void LlTraverseB (LlNode* first); 
LlTraverseB proc 

 LlTraverse64 y 
LlTraverseB endp 


ENDIF 
end 





头 文件 LinkedListPrefetch.h (清单 22-4) 包含 了 C++ 结构 LINode 的 声明 。 示 例 程序 
LinkedListPrefetch 用 这 个 结构 构造 链表 的 测试 数据 。 结 构成 员 ValA 到 ValD 保存 了 链表 遍历 
函数 要 操作 的 数据 。 移 位 预 取 最 适用 于 大 的 数据 结构 ， 为 验证 目的 ， 加 入 了 成 员 FreeSpace 来 
增加 LINode 的 大 小 。 真 实 实现 的 LINode 可 以 将 该 空间 用 于 更 多 的 数据 项 。L1Node 的 最 后 
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一 个 成 员 是 一 个 名 为 Link 的 指针 ， 指 向 链表 中 的 下 一 个 LINode 结构 。 请 注意 Win32 版 本 的 
LINode 包含 了 额外 四 个 字 节 的 名 为 Pad 的 成 员 ， 是 为 了 使 得 32 位 和 64 位 执行 环境 中 结构 的 
大 小 是 相等 的 。( 译 者 注 : 在 64 位 执行 环境 中 ， 指 针 成 员 Link 是 64 位 的 ， 而 在 32 位 执行 环 
境 中 ， 指 针 成 员 Link 是 32 位 的 。) 清单 22-5 显示 了 汇编 语言 中 LI1Node 的 相应 声明 。 
文件 LinkedListPrefetch.cpp (清单 22-6 ) 的 头 部 是 一 个 名 为 LICompare 的 辅助 函数 ， 用 
653] 来 比较 示例 程序 操作 的 链表 数据 是 和 否 相 等 。 接 下 来 是 另 一 个 名 为 LIPrint BAS I PARC, HRH 
链表 的 数据 成 员 打 印 到 指定 的 FILE fio PAM LlCreate 构造 了 一 个 链表 ， 包含 num_nodes 个 
LlNode 的 实例 。 请 注意 每 个 LINode 被 分 配 在 64 字 节 的 边界 ， 以 避免 数组 数据 被 分 割 到 不 同 
的 缓存 行 。 函 数 LITraverse 包含 了 遍历 指定 链表 的 代码 ， 并 且 使 用 链表 中 每 个 LINode 的 数据 
数组 执行 需要 的 计算 。 最 后 ， 函 数 LinkedListPrefetch 包含 了 构造 测试 链表 的 代码 。 然 后 该 也 
数 调 用 C++ 和 汇编 语言 的 遍历 函数 LITraverseCpp LiTraverseA_ 和 LlTraverseB 。 

汇编 语言 文件 LinkedListPrefstch32 .asm (清单 22-7) 4 LinkedListPrefetch64_.asm (清单 22-8 ) 
分 别 包 含 了 链表 遍历 函数 LiTraverseA_ 和 LITraverseB 的 32 位 和 64 位 实现 ， 定 义 在 相应 文件 
的 尾部 ， 使 用 名 为 _LlTraverse32 或 LlITraverse64 的 宏 来 生成 需要 的 代码 。 这 两 个 宏 都 需要 一 
个 参数 来 指定 遍历 代码 是 否 使 用 prefetchnta 指令 。 从 有 逻辑 和 结构 上 来 说 ， 宏 _LiTraverse32 和 
_LITraverse64 是 相同 的 ， 除 了 指针 大 小 之 外 。 后 面 的 讨论 将 集中 在 宏 _LITraverse32 Eo 

在 链表 遍历 循环 的 项 部， 当前 节点 的 数据 数组 Vala 和 ValB 被 分 别 加 载 到 寄存 器 
YMM0 和 YMM1。 指 向 下 一 个 节点 的 指针 也 被 加 载 到 寄存 器 ECX (并 且 有 条 件 地 加 载 到 寄 
存 器 EDX). WREERM UsePrefetch 和 字符 Y 相等 ，prefetchnta [edx] 指令 就 会 生效 。 该 
指令 将 包括 数据 数组 Vala 和 ValB 的 下 一 个 节点 的 开始 字 节 无 时 态 预 取 到 L2 缓存 。 在 执行 
prefetchnta [edx] 指令 之 前 ,测试 了 EDX， 以 避免 使 用 指向 NULL 内 存 地 址 的 指针 执行 预 取 
操作 ， 这 将 降低 处 理 器 的 性 能 。 男 外 需要 注意 的 是 ， 一 个 程序 永远 不 要 试图 在 其 他 程序 的 内 
存 地 址 空间 执行 预 取 指令 。 

如 果 在 CPU 内 核 继续 执行 指令 的 同时 ， 处 理 器 在 后 台 能 执行 请 求 的 内 存 操作 ， 预 取 指 令 
工作 得 最 好 。_LITraverse32 的 计算 部 分 进行 了 一 些 不 相干 的 组 合 双 精度 浮 点 运算 来 模拟 耗 时 操 
作 。 计 算 结 果 用 vmovntpd 保存 到 目的 数组 ValC 和 ValD ， 因 为 这 些 数据 只 被 引用 一 次 。 

输出 22-2 显示 了 示例 程序 LinkedListPrefetch 的 结果 。 表 22-3 和 表 22-4 显示 了 Win-32 
和 Win64 版 本 的 时 间 度 量 。 在 基于 Haswell 的 处 理 器 特别 是 17-4770 上 ， 示 例 程 序 Linked- 
ListPrefetch 在 使 用 prefetchnta 指令 时 获得 了 更 好 的 性 能 。 需 要 注意 的 是 ， 预 取 指 令 带 来 的 
任何 性 能 提升 ， 都 高 度 依赖 于 数据 的 使 用 模式 和 基本 的 微 架 构 。 依 照 《 Intel 64 和 IA-32 38 
构 优 化 参考 手册 》( Intel 64 and IA-32 Architectures Optimization Reference Manual)， 数 据 预 
取 指 令 是 “实现 相关 的 ”。 换 言 之 , 为 了 最 大 化 预 取 性 能 ， 每 个 算法 都 必须 “为 每 个 实现 ”， 

或 为 微 架 构 单 独 优化 。 前 述 的 参考 手册 包含 了 使 用 数据 预 取 指令 更 多 的 信息 。 


输出 22-2 示例 程序 LinkedListPrefetch 


Results for LinkedListPrefetch 
Platform target: X86-32 
sizeof(LlNode): 512 
LlNode member offsets 

ValA: 0 

ValB: 32 

ValC: 64 

ValD: 96 





高 级 主题 编程 463 


FreeSpace: 128 
Link: 504 
Linked list compare OK 
Linked list results saved to file _ LinkedListPrefetchResults32.txt 


Benchmark times saved to file _ LinkedListPrefetch32.csv 





表 22-3 x86-32 函数 LITraverseCpp、LITraverseA_ 和 LITraverseB _ 
(num_nodes=20 000) 的 平均 执行 时 间 (单位 : 微 秒 ) 


CPU LITraverseCpp LITraverseA_ LiTraverseB (prefetchnta) 
Intel Core 17-4770 1912 867 799 
Intel Core i7-4600U 1911 969 955 
Intel Core i3-2310M 3601 1676 1669 


表 22-4 x86-64 函数 LITraverseCpp、LITraverseA_ 和 LITraverseB . 
(num_nodes=20 000) 的 平均 执行 时 间 (单位 : 微 秒 ) 


CPU LITraverseCpp LITraverseA_ LiTraverseB (prefetchnta) 
Intel Core i7-4770 1660 843 793 
Intel Core i7-4600U 1645 902 879 
Intel Core i3-2310M 3391 1676 1669 655 


22.3 总结 


在 本 章 中 ,我 们 学 习 了 无 时 态 ( non-temporal) 内 存 存储 的 概念 ， 并 学 习 了 它 的 应 用 。 
我 们 还 学 习 了 x86 数据 预 取 指令 的 用 法 。 本 章 的 例子 只 是 x86 汇编 语言 高 级 编程 的 人 门 读 
物 ， 鼓 励 读 者 查阅 附录 C (从 http://www.apress.com/9781484200650 Fak) 中 列 出 的 参考 文 
献 ， 以 获取 x86 汇编 语言 高 级 编程 的 更 多 信息 。 656 
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